Последнее обновление: 16.03.2015
Введение
FastTrack Data Warehouse (FastTrack DW) представляет собой в первую очередь набор рекомендованных конфигураций, оптимизированных для решения задач хранилищ данных. Часто программно аппаратные решения для хранилищ данных, разработанные самостоятельно, бывают не оптимизированы по стоимости и производительности. В первом случае, например, могут использоваться слишком мощные сервер и система хранения, для имеющейся системы ввода-вывода. Во втором случае (в части программной реализации) может использоваться, например, неправильная стратегия размещения данных в файловых группах базы данных (неправильная методика загрузки данных в ХД). FastTrack DW предназначен для решения этих проблем предоставляя:
- метод построения эффективной по затратам, сбалансированной системы для загрузки, типично для хранилищ данных;
- эталонные аппаратные конфигурации разработаны с поставщиками оборудования;
- рекомендации размещения, загрузки и управления данными.
Построение хранилища данных в соответствии с рекомендациями FastTrack DW позволяет добиться последовательного хранения и чтения данных. Данный тип нагрузки позволяет сбалансировать по производительности все компоненты системы начиная от процессоров и заканчивая системой хранения. При этом достигается минимальная стоимость оборудования для заданного уровня производительности системы. Для обеспечения последовательной записи и чтения необходимо отделить хранилище данных от прочих компонентов аналитического решения, в противном случае эффект оптимизации полностью теряется.
Стандартная конфигурация FTDW
Рекомендованные аппаратные архитектуры FastTrack DW основаны на выделенной системе хранения. Ввод-вывод обеспечивается через независимые выделенные полки системы хранения и процессоры. Передачу данных между сервером и полками системы хранения обеспечивает Fiber Switch, т.е. внутри FastTrack DW организуется сеть Fiber Channel.
В качестве программного обеспечения для FastTrack DW используется Windows Server 2008 и SQL Server 2008 R2 со специализированными настройками. Стек базы данных в FastTrack DW 3.0 состоит из следующих элементов:
- физических дисковых массивов (RAID 1+0 на 4-х дисках);
- связанных логических дисков на уровне операционной системы (LUN);
- баз данных: пользовательских, TempDB, Log.
Выбор эталонных аппаратных конфигураций
В настоящее время существует не менее 12-ти ссылочных аппаратных конфигураций FastTrack DW от поставщиков HP, Dell, Bull, IBM и EMC. Стоимость хранения данных на этих конфигурациях начинается от 11 тысяч долларов за терабайт информации. Существуют конфигурации общим объемом от 4 до 80 Тбайт. Для выбора подходящей конфигурации можно использовать Fast Track 3.0 System Sizing Tool (27KB, XLSX).
В качестве примера ниже приведен внешний вид ссылочной архитектуры Fast Track DW на 20 Tбайт на базе сервера ProLiant DL585 G7 и 6-ти полок с массивом данных StorageWorks P2000 G3 MSA SFF.
Тестирование компонентов FastTrack DW
Тестирование компонентов FastTrack DW проводится в две фазы (подробнее см. Fast Track Data Warehouse 3.0 Reference Guide (1.35MB, DOCX)). Фаза начальной оценки аппаратного обеспечения состоит из следующих шагов:
- Проверить пропускную способность Fiber Channel.
- Проверить пропускную способность LUN и RAID.
- Проверить общую пропускную способность.
Фаза проверки базы данных FastTrack DW состоит из двух метрик оценки производительности SQL Server для нагрузки на хранилище данных:
- Maximum CPU Consumption Rate, (MCR) – измеряет максимальную пропускную способность ввода-вывода;
- Benchmark CPU Consumption Rate (BCR) – измеряет фактическую пропускную способность для запроса или нагрузки, основанной на запросах.
Организация загрузки данных в хранилище
В решении на базе рекомендаций FastTrack DW при загрузке данных в хранилище ставится цель обеспечения последовательного размещения данных и минимизации фрагментации данных. В рекомендациях по загрузке рассматриваются различные стратегии загрузки (миграция данных или инкрементальная загрузка), типы целевых таблиц (без индекса или с кластерным индексом), геометрия секций и файловых групп, архитектура источников данных и т.д. В результате выполнения этих рекомендаций при выполнении запросов SQL Server обеспечивается последовательное сканирование данных на всех дисках системы хранения с данными, что обеспечивает максимальную скорость выполнения запроса в реализации FastTrack DW.