Новые возможности SQL Server 2012 PDW

Microsoft SQL Server Parallel Data Warehouse (PDW) – программно-аппаратный комплекс для хранения критически важных данных и их параллельной обработки (Massive Parallel Processing, MPP), поставляемый на базе оборудования HP и Dell; является одним из решений Microsoft для обработки «больших данных».

Во вторую версии SQL Server PDW (SQL Server 2012 PDW) внесены значительные оптимизационные изменения аппаратного обеспечения.

PDW2

В частности, в качестве узлов хранения вместо SAN используются более дешевые и плотно упакованные JBOD с прямым подключением SAS-дисков, а поддержка надежности и функциональности осуществляется за счет средств Windows Server 2012. Область выгрузки и узел резервирования выведены из PDW, что дает возможность использования произвольного аппаратного обеспечения, настройки функций высокой доступности и т.д. Контрольный и управляющий узел представлены в виде виртуальных машин и упакованы в один физический сервер.

Административная консоль полностью переработана.

console

Появилось множество нововведений в части программной совместимости: на контрольном и расчетных узлах установлен SQL Server 2012 EE; SQL Server на контрольном узле (Shell Appliance) поддерживает большинство реляционных функций SQL Server; для работы с PDW сейчас можно (и нужно) использовать SQL Server Data Tools (SSDT).

ssdt

Начиная с версии SQL Server 2012 PDW программный комплекс дополнили технологией PolyBase, которая позволяет делать запросы к данным в Hadoop и объединять их с релцяционными данными с использованием стандартных SQL-инструкций. При необходимости результаты запроса можно сохранить как реляционные данные в PDW или направить обратно в Hadoop.

polybase4

Обогащение данных наборами из Windows Azure Marketplace DataMarket

Windows Azure Marketplace – это «онлайн-рынок» для покупки и продажи SaaS-приложений и наборов данных. Здесь можно найти множество данных, включая демографические, финансовые, торговые, телекоммуникационные и прочие отраслевые данные.

marketplace

В настоящее время в Windows Azure Marketplace представлено более 40 провайдеров данных и сотни высококачественных наборов данных (часть из них – бесплатные). В целом здесь содержатся петабайты данных и триллионы значений данных по всему спектру категорий контента.

Использование этих наборов данных позволяет повысить ценность внутреннего набора данных организации за счет его объединения с внешним набором данных.

Давайте посмотрим, как это работает на примере компании, торгующей ценными бумагами. Предположим, архитектор данных собрал информацию о стоимости акций и дивидендах на торговой площадке, а также сделал ее доступной для других участников, используя Windows Azure HDInsight Service и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам. После этого финансовый аналитик может с помощью надстройки Power Query для Excel объединить данные из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Windows Azure Marketplace. После этого мы сможем анализировать данные о стоимости акций и дивидендах в разрезе отраслей.

role2-1

Дополнительно: Анализ «больших данных» для финансового сектора

Третья онлайн-конференция 24 Hours of PASS

19 и 20 марта состоится третья онлайн-конференция 24 Hours of PASS полностью на русском языке. Более чем 20 специалистов по SQL Server, живущие от Сиднея до Редмонта, поделятся своими знаниями. Среди докладчиков 2 MCM, 8 MVP, 5 сотрудников Microsoft. Не упустите уникальный шанс получить уникальные знания.

Регистрация будет открыта 19 февраля.

Расписание докладов

* Чтобы уточнить время начала доклада в вашем часовом поясе вы можете обратиться к руководству

19 марта

01. 09:00 Всё о соединениях Докладчик: Олонцев Сергей (Москва)

02. 10:00 SQL Server в гибридных средах Докладчик: Кривошеев Евгений (Сиэтл)

03. 11:00 Горизонтальное масштабирование MS SQL для OLTP – систем Докладчик: Баркетов Павел (Москва)

04. 12:00 Microsoft SQL Server: Лицензирование продукта. Или как «Поверить алгеброй гармонию»*. (*А. С. Пушкин) Докладчик: Кривозубова Жанна (Москва)

05. 13:00 Data Warehouse in the Cloud – маркетинговый гэг или реальность? Докладчик: Халяко Алексей (Мюнхен)

06. 14:00 SQL Server Reporting Services — дюжина советов Докладчик: Коршиков Андрей (Краснодар)

07. 15:00 Кластерные Колоночные Индексы Докладчик: Нойгебауэр Нико (Лиссабон)

08. 16:00 SQL Server в Microsoft Windows Azure — платформа для современных бизнес приложений «1С» Докладчик: Лемешко Максим (Москва)

09. 17:00 Вечная История о Преходящем Докладчик: Короткевич Дмитрий (Тампа)

10. 18:00 Обзор Power BI и примеры использования Докладчик: Косяков Иван (Москва)

11. 19:00 План восстановления баз данных Докладчик: Панов Кирилл (Екатеринбург)

12. 20:00 Внутри оптимизатора: кардинальность и планы выполнения Докладчик: Пилюгин Дмитрий (Москва)

20 марта

13. 09:00 Использование CDC для  хранилищ данных с помощью SSIS Докладчик: Полоничко Евгений (Москва)

14. 10:00 Новые возможности Entity Framework 6 Докладчик: Матеев Михаил (София)

15. 11:00 Deadlocks 2.0 или с чем ещё можно столкнуться Докладчик: Резник Денис (Киев)

16. 12:00 Конкуретный доступ к структурам даных в памяти. Latch’и. Докладчик: Хабаров Евгений (Москва)

17. 13:00
18. 14:00 BigData — NoSQL — MongoDB Докладчик: Малая Виктория (Днепропетровск)

19. 15:00 Новые возможности использования Data Quality Services в SSIS  Докладчик: Хомяков Константин (Сидней)

20. 16:00 Многомерная модель данных в SSAS Докладчик: Хомяков Константин (Сидней)

21. 17:00 Все, что вы хотели узнать об объектах БД, но всегда боялись спросить Докладчик: Короткевич Дмитрий (Тампа)

22. 18:00 Delayed Durability: чем вы готовы пожертвовать ради производительности Докладчик: Гурьянов Михаил (Москва)

23. 19:00 SQL Server 2014. Resource Governor. Докладчик: Князев Алексей (Екатеринбург)

24. 20:00 Внутри оптимизатора: стоимость и планы выполнения Докладчик: Пилюгин Дмитрий (Москва)

24HOPRU2014

Анализ данных в «реальном времени» с помощью SQL Server StreamInsight

Введение в StreamInsight

StreamInsight является одним из компонентов SQL Server или облачным сервисом Windows Azure для обработки сложных событий (Complex
Event Processing, CEP).

cep

На схеме на оси абсцисс отражена совокупная скорость передачи данных, событий в секунду, а на оси ординат – характерное время задержки при выдаче результата запроса для той или иной задачи.

Цветные области на графике показывают, какие требования существуют у тех или иных приложений к скорости передачи данных и обработки запросов.

Видно, что технология сложной обработки событий предназначена для решения задач с высокой скоростью передачи данных и низкой задержкой.

Особенность технологии состоит в том, что при ее использовании устанавливаются постоянные запросы, на вход которых подается поток постоянно меняющихся данных из различных источников. Благодаря этому результаты постоянных запросов выдаются с близкой к нулю задержкой.

Отраслевые примеры использования StreamInsight

Сложная обработка событий (CEP) может использоваться в следующих отраслях и задачах:

  • финансы – для алгоритмизации торговли и обнаружения мошенничества;
  • телекоммуникации – для мониторинга сети и качества сервиса;
  • производство – для мониторинга материалов (RFID), агрегирования данных от сенсоров и генерация тревоги в случае ошибок;
  • веб-приложения — для анализа трафика сайта и обнаружения нежелательного поведения;
  • здравоохранение – для анализа состояния здоровья пациента;
  • логистика – для прогнозирование и отслеживание цепочки поставок и GPS-трэкинга.

Разумеется, возможно и многие другие примеры применения данной технологии.

Архитектура StreamInsight

Схема платформы обработки сложных событий приведена на следующем рисунке.

cep_platform

Сервер (CEP-движок) постоянно держит в оперативной памяти и обрабатывает постоянные (декларированные) запросы. Эти запросы по виду похожи на T-SQL запросы и могут определенным образом преобразовывать и агрегировать данные со входящих адаптеров. Постоянные запросы могут быть вложены друг в друга, и также могут подтягивать статические данные из традиционных баз данных (SQL Server). На выходе CEP-движка в результате обработки появляются только интересующие нас агрегированные события.

Входящие адаптеры отвечают за передачу событий с источников.

Источниками данных могут выступать различные устройства, сенсоры, веб-сайты и прочие системы, генерирующие события.

Исходящие события, полученные в результате обработки CEP-движком, передаются в выходные (исходящие) адаптеры.

Данные от исходящих адаптеров отражаются целевыми системами, такими как пейджеры, устройства мониторинга, карты ключевых показателей эффективности и диаграммы, а также могут сохраняться в системы хранения событий и базы данных.

Демонстрация. Пример разработки приложения StreamInsight

В качестве примера использования технологии StreamInsight предлагаю вам посмотреть пример приложения анализа трафика на многополосной автомагистрали.

Демонстрация визуализации в портале SharePoint

Аналогичные приложения можно создать непосредственно на портале SharePoint. Пример подобного решения по анализу «реального времени» сообщений в Twitter (по определенным ключевым терминам) есть в Московском технологическом центре Microsoft (MTC Moscow). Снимок экрана – ниже.

twitter-analytics

Дополнительные ресурсы по технологии StreamInsight