Новые возможности SQL Server 2012 PDW

Microsoft SQL Server Parallel Data Warehouse (PDW) – программно-аппаратный комплекс для хранения критически важных данных и их параллельной обработки (Massive Parallel Processing, MPP), поставляемый на базе оборудования HP и Dell; является одним из решений Microsoft для обработки «больших данных».

Во вторую версии SQL Server PDW (SQL Server 2012 PDW) внесены значительные оптимизационные изменения аппаратного обеспечения.

PDW2

В частности, в качестве узлов хранения вместо SAN используются более дешевые и плотно упакованные JBOD с прямым подключением SAS-дисков, а поддержка надежности и функциональности осуществляется за счет средств Windows Server 2012. Область выгрузки и узел резервирования выведены из PDW, что дает возможность использования произвольного аппаратного обеспечения, настройки функций высокой доступности и т.д. Контрольный и управляющий узел представлены в виде виртуальных машин и упакованы в один физический сервер.

Административная консоль полностью переработана.

console

Появилось множество нововведений в части программной совместимости: на контрольном и расчетных узлах установлен SQL Server 2012 EE; SQL Server на контрольном узле (Shell Appliance) поддерживает большинство реляционных функций SQL Server; для работы с PDW сейчас можно (и нужно) использовать SQL Server Data Tools (SSDT).

ssdt

Начиная с версии SQL Server 2012 PDW программный комплекс дополнили технологией PolyBase, которая позволяет делать запросы к данным в Hadoop и объединять их с релцяционными данными с использованием стандартных SQL-инструкций. При необходимости результаты запроса можно сохранить как реляционные данные в PDW или направить обратно в Hadoop.

polybase4

27.06.2013. Семинар про SQL Server PDW и интеграцию с HDInsight (Hadoop для Windows)

27.06.2013 в 19:00 в Технологическом центре Microsoft состоится встреча Russian BI PASS Chapter по теме «Использование SQL Server Parallel Data Warehouse (PDW) и интеграция с HDInsight».

Докладчик: Андрей Резник, Microsoft

О докладе.

Microsoft SQL Server Parallel Data Warehouse (PDW) – это высокопроизводительная платформа для организации аналитического хранилища данных (DWH) от десятка до сотен ТБ, обеспечивающая отличную производительность и масштабируемость.Parallel Data Warehouse использует архитектуру обработки больших объемов данных, состоящую в распределении данных и параллельной обработки на разных серверах (узлах). Каждый из узлов использует свои собственные процессоры, память и дисковые ресурсы. Такой подход называется обработкой с массовым параллелизмом (MPP).

Мы рассмотрим базовые принципы, заложенные в PDW, его архитектуру, состав серверов, рекомендации к проектированию схемы данных. Также взглянем на Hadoop, экосистему для построения распределенных систем, и его интеграцию с PDW.

Встреча пройдет в максимально интерактивном режиме. Мы планируем не просто рассказ об указанных технологиях, но и организовать круглый стол и обсудить вопросы построения хранилищ. У вас есть уникальная возможность пообщаться с коллегами и одним из ведущих экспертов в данной области.

Адрес проведения: Москва, ул. Лесная, 5С (бизнес-центр «Белая площадь»), 6 этаж (Microsoft)

Ссылка для регистрации: http://ineta.ru/rubi или http://www.facebook.com/events/204653736351125

Russian BI PASS Chapter (RuBI) logo

Анонсы на Саммите PASS 2012 («Hekaton», PDW, PolyBase)

Вчера (07.11.2012) завершился первый день Саммит PASS, на котором было сделано несколько важных анонсов.

В части доклада со стороны PASS была анонсирована конференция PASS Business Analytics Conference, которая будет проходить в Чикаго с 10 по 12 апреля 2013 года. Регистрация на конференцию открыта.

Далее Тед Куммерт, вице президент Microsoft, анонсировал выход SQL Server 2012 SP1, который интегрируется с Office 2013, а также рассказал о новых возможностях ускорения обработки данных в следующей версии SQL Server.

Транзакционная СУБД в памяти, проект «Hekaton»

Транзакционная СУБД в памяти, проект с кодовым именем «Hekaton», выйдет со следующей версией SQL Server. В демонстрации была показана возможность возможность диагностики таблиц-кандидатов для размещения в памяти, операция миграции существующей таблицы в память и увеличение производительности в десятки раз (и уменьшение количества локировок).

Обновляемые и кластерные индексы хранения колонок

Индекс хранения колонок (СolumnStore Index) в следующей версии SQL Server станет поддерживать обновления данных (т.е. можно будет постоянно подгружать данные в хранилище данных), а также будет поддерживаться кластерный индекс хранения колонок.

SQL Server 2012 PDW

SQL Server 2012 Parallel Data Warehouse (PDW) будет доступен в первой половине 2013 года. Программно-аппаратный комплекс будет поддерживать индексы хранения колонок с возможностью обновления (возможно увеличение производительности до 50 раз), работать с комплексом можно будет через SQL Server Data Tools, SQL Server Reporting Services сможет подсоединяться к PDW через родной коннектор SQL Server.

PolyBase

PolyBase позволит работать из SQL Server Data Tools с данными из HDInsight (Hadoop для Windows), а также делать запросы одновременно на основании реляционных данных и данных из Hadoop. В будущем PolyBase позволит делать запросы одновременно к нескольким дополнительным источникам данных.

PolyBase будет доступен в следующем релизе SQL Server 2012 PDW в первой половине 2013 года.

Дополнительные материалы

  1. Ключевой доклад PASS Summit 2012
  2. Фрагменты сессий PASS Summit 2012
  3. Презентации с PASS Summit 2012 (требуется регистрация)
  4. Финальная версия SQL Server 2012 Service Pack 1
  5. MSDN: New or Enhanced Features in SQL Server 2012 SP1
  6. SQL Server Blog. PASS Summit 2012: Accelerating Business through Data Insights
  7. ZDNet. Microsoft: Hey, we’re an in-memory database player, too
  8. ZDNet. Microsoft to fold in-memory database technology into SQL Server Next

Hy-Vee внедрили хранилище данных на базе PDW

Hy-Vee (сеть супермаркетов в США) внедрили хранилище данных на базе PDW (официальная информация доступна на сайте Microsoft).

Характеристики проекта:

  • до внедрения — 11 Тбайт данных в хранилище данных (данные за 7 лет, объемы постоянно растут; после внедрения объемы данных были увеличены в несколько раз)
  • ежедневная загрузка более 800 тысяч строк (после внедрения, очевидно, в разы больше)
  • OLAP-кубы
  • регламентированная отчетность Reporting Services

Результаты:

  • увеличение производительности до 100 раз
  • возможность просмотра данных за вчерашний день для реагирования на тренды (до внедрения PDW могли лишь посмотреть данные двухнедельной давности)
  • стало возможным выполнять значительно более сложные запросы к данным.

SQL Server Parallel Data Warehouse

Более новая версия статьи находится по адресу: https://microsoftbi.ru/basics/bigdata/pdw.

Введение

Microsoft SQL Server Parallel Data Warehouse (PDW) – это наиболее мощный программный-аппаратный комплекс для хранилищ данных, построенных на продуктах Microsoft. Этот комплекс поставляется на базе оборудования компаний Dell или HP в виде одной «контрольной» стойки и одной-четырех стоек с данными.

Компоненты PDW

Комплекс предназначен для критически важных хранилищ данных объемом до нескольких сотен Тбайт и построен на базе архитектуры MPP (Massive Parallel Processing).

Контрольная стойка состоит из следующих компонентов:

  • контрольный узел – обрабатывает запросы приложений, формирует план выполнения запроса, генерирует TSQL-запросы к расчетным узлам и агрегирует результаты, полученные от расчетных узлов;
  • управляющий узел – содержит сервисные приложения, образ диска для восстановления расчетных узлов, содержит Active Directory;
  • область загрузки – предоставляет систему хранения для загрузки данных ETL-процессами; содержит SQL Server Integration Services (SSIS), имеет возможность удаленного управления и позволяет запускать приложения и скрипты, необходимые для работы в пределах внутренней сети;
  • узел резервирования – позволяет формировать резервные копии данных;

Стойка с данными состоит 10 узлов, каждый из которых состоит из активного расчетного узла и узла с данными. В стойке также содержится один пассивный расчетный узел на случай аппаратного сбоя одного из активных расчетных узлов.

Каждый узел стойки с данными представляет собой типичный SMP-узел (symmetric multi-processing), построенный на так же принципах, что и FastTrack DW, и имеет в составе:

  • расчетный узел  — сервер с установленным SQL Server EE и базой TempDB;
  • узел хранения  — систему хранения с базой хранилища данных, промежуточной областью хранилища данных и журналами.

Распределение данных по расчетным узлам

Каждая таблица базы данных в пределах PDW является:

  • либо реплицированной (replicated) — т.е. копируется на каждый расчетный узел (таблицы измерений должны быть реплицированными);
  • либо распределенной (distributed) – т.е. разбивается с помощью Hash-функции и распределяется по узлам хранения (это актуально для больших таблиц фактов).

Таким образом, контрольный узел распределяет запрос пользователя по расчетным узлам, и каждый расчетный узел выдает результат для определенной части таблицы фактов.

В более сложных случаях данные, требуемые для выполнения запроса на одном расчетном узле, могут быть получены от систем хранения других расчетных узлов. При необходимости часть вычислений может быть произведена и на контрольном узле.

Архитектура PDW

С точки зрения архитектуры PDW, драйверы доступа к данным располагаются на контрольном узле, соответственно, приложения передают запросы на контрольный узел. Движок параллельной обработки (MPP Engine Coordinator) разбирает запрос за множество запросов к расчетным узлам и передает их на расчетные узлы через сервис перемещения данных (Data Movement Coordinator). На каждом расчетном узле за обработку запроса отвечает соответствующий экземпляр SQL Server EE. Сервис перемещения данных также отвечает за перемещение данных между узлом загрузки, расчетными узлами, узлом резервирования и контрольным узлом. На управляющем узле работает Административная консоль (на базе IIS).

Демонстрация

В следующей демонстрации показано, как запросы к PDW, запускаемые в зоне выгрузки с помощью приложения Nexus Query Chameleon, распределяются по расчетным узлам, что видно из Административной консоли PDW.

Дополнительные материалы

  1. A Breakthrough Platform for Next-Generation Data Warehousing and Big Data Solutions
  2. Large-Scale Data Warehousing and Big Data with Microsoft SQL Server Parallel Data Warehouse V2
  3. Внедрение Microsoft SQL Server Parallel Data Warehouse с применением подхода Кимбалла
  4. Implementing a Microsoft SQL Server Parallel Data Warehouse Using the Kimball Approach
  5. Parallel Data Warehouse Official Page – www.microsoft.com/pdw
  6. Parallel Data Warehouse Datasheet
  7. Data Warehousing 2.0 and SQL Server
  8. HP specification
  9. HP specification 2
  10. Polybase: Hadoop Integration in SQL Server PDW V2
  11. PDW Case Studies (примеры внедрения в мире)

Архитектуры и комплексы для хранилищ данных

Введение

В связи с массовым развитием реляционных хранилищ данных на базе SQL Server, наличием более тысяч реализаций терабайтных хранилищ и большим разнообразием вариантов внедрения Microsoft совместно с поставщиками серверов и систем хранения разработали линейку программно-аппаратных комплексов и ссылочных архитектур для хранилищ данных.

Эти архитектуры и комплексы несут в себе лучшие практики организации хранилищ данных, а также сбалансированы по используемым компонентам (а, следовательно, имеют минимальную стоимость при имеющемся уровне производительности).

С точки зрения базы данных они оптимизированы для сложных аналитических запросов и массивных вставок данных, а с точки зрения системы хранения – на операциях чтения больших объемов путем последовательного сканирования.

Справочные архитектуры (FastTrack DW) представлены как:

  • методы построения эффективной по затратам, сбалансированной системы для загрузки, типично для хранилищ данных;
  • эталонные аппаратные конфигурации разработаны с поставщиками оборудования;
  • рекомендации размещения, загрузки и управления  данными.

Программно-аппаратные комплексы (Business DW Appliance и Enterprise DW Appliance – PDW) являются полностью собранными и настроенными решениями. Они построены под определенный тип нагрузки (в нашем случае это хранилища данных), на базе выверенной архитектуры, с использованием необходимого программного и аппаратного обеспечения.

Сравнение архитектур и комплексов

Предлагаемые архитектуры и комплексы представлены в таблице ниже (подробнее поговорим о них в следующих заметках).

Следует обратить внимание, что особенностью программно-аппаратных комплексов являются малые усилия для их внедрения, в отличие от ссылочных архитектур, по которым нужно отдельно настраивать аппаратное и программное обеспечение по имеющимся руководствам (средние усилия). Тем не менее, вариант самостоятельного построения систем, оптимизированных для задач хранилищ данных, является очень трудоемким.

Подход к построению BI-решений «Hub and Spoke»

Для реальных задач, связанных с созданием аналитических систем и использованием хранилищ данных перечисленные выше комплексы и архитектуры можно и нужно комбинировать, используя подход «Hub and Spoke» (дословно – «центр и спицы»).

Пример такого подхода приведен на следующем рисунке, где в качестве центрального хранилища с полным набором данных о деятельности предприятия используется PDW, в правой части отдельный экземпляр PDW используется для максимально быстрого формирования отчетности (в данном случае важна именно скорость, а не объемы данных), зона выгрузки центрального PDW используется как источник для отдельной базы SS 2008 EE, отдельные два экземпляра FastTrack DW используются, соответственно, для региональной отчетности и отчетности конкретного подразделения.

Дополнительные материалы:

Тренинг по FastTrack DW 3.0 и PDW

С 4 по 8 апреля в Москве будет проводиться тренинг для партнеров Microsoft:

Прошу срочно регистрироваться!