Рекомендованные архитектуры FastTrack DW

Последнее обновление: 16.03.2015

Введение

FastTrack Data Warehouse (FastTrack DW) представляет собой в первую очередь набор рекомендованных конфигураций, оптимизированных для решения задач хранилищ данных. Часто программно аппаратные решения для хранилищ данных, разработанные самостоятельно, бывают не оптимизированы по стоимости и производительности. В первом случае, например, могут использоваться слишком мощные сервер и система хранения, для имеющейся системы ввода-вывода. Во втором случае (в части программной реализации) может использоваться, например, неправильная стратегия размещения данных в файловых группах базы данных (неправильная методика загрузки данных в ХД). FastTrack DW предназначен для решения этих проблем предоставляя:

  • метод построения эффективной по затратам, сбалансированной системы для загрузки, типично для хранилищ данных;
  • эталонные аппаратные конфигурации разработаны с поставщиками оборудования;
  • рекомендации размещения, загрузки и управления  данными.

Построение хранилища данных в соответствии с рекомендациями FastTrack DW позволяет добиться последовательного хранения и чтения данных. Данный тип нагрузки позволяет сбалансировать по производительности все компоненты системы начиная от процессоров и заканчивая системой хранения. При этом достигается минимальная стоимость оборудования для заданного уровня производительности системы. Для обеспечения последовательной записи и чтения необходимо отделить хранилище данных от прочих компонентов аналитического решения, в противном случае эффект оптимизации полностью теряется.

Стандартная конфигурация FTDW

Рекомендованные аппаратные архитектуры FastTrack DW основаны на выделенной системе хранения. Ввод-вывод обеспечивается через независимые выделенные полки системы хранения и процессоры. Передачу данных между сервером и полками системы хранения обеспечивает Fiber Switch, т.е. внутри FastTrack DW организуется сеть Fiber Channel.

В качестве программного обеспечения для FastTrack DW используется Windows Server 2008 и SQL Server 2008 R2 со специализированными настройками. Стек базы данных в FastTrack DW 3.0 состоит из следующих элементов:

  • физических дисковых массивов (RAID 1+0 на 4-х дисках);
  • связанных логических дисков на уровне операционной системы (LUN);
  • баз данных: пользовательских, TempDB, Log.

Выбор эталонных аппаратных конфигураций

В настоящее время существует не менее 12-ти ссылочных аппаратных конфигураций FastTrack DW от поставщиков HP, Dell, Bull, IBM и EMC. Стоимость хранения данных на этих конфигурациях начинается от 11 тысяч долларов за терабайт информации. Существуют конфигурации общим объемом от 4 до 80 Тбайт. Для выбора подходящей конфигурации можно использовать Fast Track 3.0 System Sizing Tool (27KB, XLSX).

В качестве примера ниже приведен внешний вид ссылочной архитектуры Fast Track DW на 20 Tбайт на базе сервера ProLiant DL585 G7 и 6-ти полок с массивом данных StorageWorks P2000 G3 MSA SFF.

Тестирование компонентов FastTrack DW

Тестирование компонентов FastTrack DW проводится в две фазы (подробнее см. Fast Track Data Warehouse 3.0 Reference Guide (1.35MB, DOCX)). Фаза начальной оценки аппаратного обеспечения состоит из следующих шагов:

  1. Проверить пропускную способность Fiber Channel.
  2. Проверить пропускную способность LUN и RAID.
  3. Проверить общую пропускную способность.

Фаза проверки базы данных FastTrack DW состоит из двух метрик оценки производительности SQL Server для нагрузки на хранилище данных:

  1. Maximum CPU Consumption Rate, (MCR) – измеряет максимальную пропускную способность ввода-вывода;
  2. Benchmark CPU Consumption Rate (BCR) – измеряет фактическую пропускную способность для запроса или нагрузки, основанной на запросах.

Организация загрузки данных в хранилище

В решении на базе рекомендаций FastTrack DW при загрузке данных в хранилище ставится цель обеспечения последовательного размещения данных и минимизации фрагментации данных. В рекомендациях по загрузке рассматриваются различные стратегии загрузки (миграция данных или инкрементальная загрузка), типы целевых таблиц (без индекса или с кластерным индексом), геометрия секций и файловых групп, архитектура источников данных и т.д. В результате выполнения этих рекомендаций при выполнении запросов SQL Server обеспечивается последовательное сканирование данных на всех дисках системы хранения с данными, что обеспечивает максимальную скорость выполнения запроса в реализации FastTrack DW.

Дополнительные ресурсы

  1. Fast Track Data Warehouse 3.0 Reference Guide (1.35MB, DOCX)
  2. Fast Track 3.0 System Sizing Tool (27KB, XLSX)
  3. Варианты конфигураций Fast Track DW от компании HP
  4. Dell Fast Track Datasheet
  5. EMC Storage Servers
  6. HP Sizer for Microsoft SQL Server (2008 R2 Fast Track 3.0/2012 Fast Track 4.0) Data Warehouse

Архитектуры и комплексы для хранилищ данных

Введение

В связи с массовым развитием реляционных хранилищ данных на базе SQL Server, наличием более тысяч реализаций терабайтных хранилищ и большим разнообразием вариантов внедрения Microsoft совместно с поставщиками серверов и систем хранения разработали линейку программно-аппаратных комплексов и ссылочных архитектур для хранилищ данных.

Эти архитектуры и комплексы несут в себе лучшие практики организации хранилищ данных, а также сбалансированы по используемым компонентам (а, следовательно, имеют минимальную стоимость при имеющемся уровне производительности).

С точки зрения базы данных они оптимизированы для сложных аналитических запросов и массивных вставок данных, а с точки зрения системы хранения – на операциях чтения больших объемов путем последовательного сканирования.

Справочные архитектуры (FastTrack DW) представлены как:

  • методы построения эффективной по затратам, сбалансированной системы для загрузки, типично для хранилищ данных;
  • эталонные аппаратные конфигурации разработаны с поставщиками оборудования;
  • рекомендации размещения, загрузки и управления  данными.

Программно-аппаратные комплексы (Business DW Appliance и Enterprise DW Appliance – PDW) являются полностью собранными и настроенными решениями. Они построены под определенный тип нагрузки (в нашем случае это хранилища данных), на базе выверенной архитектуры, с использованием необходимого программного и аппаратного обеспечения.

Сравнение архитектур и комплексов

Предлагаемые архитектуры и комплексы представлены в таблице ниже (подробнее поговорим о них в следующих заметках).

Следует обратить внимание, что особенностью программно-аппаратных комплексов являются малые усилия для их внедрения, в отличие от ссылочных архитектур, по которым нужно отдельно настраивать аппаратное и программное обеспечение по имеющимся руководствам (средние усилия). Тем не менее, вариант самостоятельного построения систем, оптимизированных для задач хранилищ данных, является очень трудоемким.

Подход к построению BI-решений «Hub and Spoke»

Для реальных задач, связанных с созданием аналитических систем и использованием хранилищ данных перечисленные выше комплексы и архитектуры можно и нужно комбинировать, используя подход «Hub and Spoke» (дословно – «центр и спицы»).

Пример такого подхода приведен на следующем рисунке, где в качестве центрального хранилища с полным набором данных о деятельности предприятия используется PDW, в правой части отдельный экземпляр PDW используется для максимально быстрого формирования отчетности (в данном случае важна именно скорость, а не объемы данных), зона выгрузки центрального PDW используется как источник для отдельной базы SS 2008 EE, отдельные два экземпляра FastTrack DW используются, соответственно, для региональной отчетности и отчетности конкретного подразделения.

Дополнительные материалы:

Тренинг по FastTrack DW 3.0 и PDW

С 4 по 8 апреля в Москве будет проводиться тренинг для партнеров Microsoft:

Прошу срочно регистрироваться!