Практические рекомендации по использованию DQS 2012

В дополнение к обзорной статье про Data Quality Services хотелось бы поговорить о некоторых практических аспектах использования этого компонента, входящего в состав SQL Server.

Для решения каких задач можно использовать DQS

DQS можно использовать для следующих задач:

  • автоматическая выверка, очистка и удаление дублей в больших массивах данных о физических и юридических лицах:
  • проверка корректности формата e-mail адресов, телефонов, номеров паспорта, ИНН, КПП, банковских реквизитов, СНИЛС и т.д.;
  • простановка почтовых индексов на основании адреса;
  • проверка корректности, согласованности и определение пола  по имени и отчеству;
  • корректировка и приведение к стандартному виду почтовых адресов (при наличии общей базы адресов);
  • и т.д. (пожалуйста, высылайте дополнения к этим примерам)

Создание базы знаний DQS с использованием составных доменов и бизнес-правил

При создании базы знаний задаются домены (соответствующие колонкам исходных наборов данных), которые будут проходить очистку и дедупликацию. При необходимости можно задавать составные домены, т.е. домены, состоящие из нескольких обычных доменов.

Для имеющихся доменов можно создавать бизнес-правила, обеспечивающие корректность данных в домене, в том числе:

  • типичные альтернативные названия и правила их преобразования в правильные названия;
  • отслеживание допустимых диапазонов значений, правильных типов данных;
  • проверка соответствия шаблону (например, что e-mail представляет одно или несколько слов, разделенных точками плюс символ «@» плюс как минимум два слова разделенных точками; при этом слово – последовательность латинских букв, цифр и некоторых разрешенных символов);
  • правила корректировки составных доменов (например, если город – Екатеринбург, то субъект РФ – Свердловская область);
  • правило по отправке данных для очистки с помощью специального облачного сервиса (например, сверить адрес с общей базой адресов);
  • и так далее.

Очистка данных в автоматическом режиме (проект SSIS c преобразованием DQS Cleansing)

В типовом пакете очистки данных новые справочные данные сравниваются с нормативно-справочной информацией (НСИ). Если данные есть в системе управления НСИ, они направляются в промежуточную область хранилища данных, а если нет, они могут быть направлены в преобразование DQS Cleansing для предварительной очистки (источник: Matt Masson. EIM presentation material from DevTeach Montreal).

Пример потока данных с применением очистки DQS. Источник: Matt Masson. EIM presentation material from DevTeach Montreal

В результате очистки преобразованием DQS Cleansing данные классифицируются: новые, корректные и откорректированные.

Откорректированные данные снова сравниваются с данными в системе управления НСИ. Если соответствие найдено, они направляются в промежуточную область хранилища данных.

Если соответствие откорректированных данных все еще не найдено, данные направляются в промежуточную таблицу для ручной обработки с помощью DQS наравне с новыми записями, а также в систему управления НСИ наравне с корректными записями, которых нет в НСИ.

Гибкая дедупликация данных в ручном режиме (проект DQS)

Для более гибкой настройки дедупликации можно использовать клиентское приложение DQS, где с помощью Matching Policy индивидуально для каждого домена можно задать его вес при сопоставлении, а также при необходимости указать требование изначальной идентичности (источник: Jeremy Kashel. DQS Matching Vs SSIS Fuzzy Grouping and Lookup).

Задание весов доменов в Matching Policy. Источник: Jeremy Kashel. DQS Matching Vs SSIS Fuzzy Grouping and Lookup

DQS выполняет сопоставление данных и дедупликацию путем сравнения каждой строки со всеми остальными строками с использованием настроек Matching Policy, заданных в базе знаний.

Обнаруженые дублирующие записи. Источник: Jeremy Kashel. DQS Matching Vs SSIS Fuzzy Grouping and Lookup

Результат сопоставления с учетом ручных корректировок может быть экспортирован в таблицу SQL Server или файл CSV для дальнейшей обработки.

Дедупликация данных в автоматическом режиме (проект SSIS c преобразованием Fuzzy Gouping)

Для дедупликации данных в автоматическом режиме в SQL Server 2012 можно использовать преобразование Fuzzy Grouping, которое в дополнительной колонке _key_out формирует идентификатор группы (ссылку на канонический идентификатор _key_in), а в колонке _score выдает стпень похожести (между 0 и 1). Источник: BI Monkey. SSIS, DQS Cleansing & the Balanced Data Distributor.

Пример потока обработки данных с использованием преобразования Fuzzy Grouping. Источник: BI Monkey. SSIS, DQS Cleansing & the Balanced Data Distributor SSIS, DQS Cleansing & the Balanced Data Distributor

Уровень похожести записей устанавливается с помощью специального бегунка в дополнительных настройка преобразования Fuzzy Grouping.

Распараллеливание потоков данных для ускорения пакета с DQS

Для применения DQS над большими объемами данных (сотни тысяч и миллионы записей) можно использовать распараллеливание потока данных с помощью компонента «Balanced Data Distributor» (источник: BI Monkey. SSIS, DQS Cleansing & the Balanced Data Distributor).

DQS с применением BDD (Balanced Data Distributor). Источник: BI Monkey. SSIS, DQS Cleansing & the Balanced Data Distributor SSIS, DQS Cleansing & the Balanced Data Distributor

Управление информацией организаций

Наиболее актуальная версия статьи: https://microsoftbi.ru/basics/eim/

Управление информацией организаций (Enterprise Information Management, EIM) является отдельной областью знаний, которая специализируется на решениях по оптимальному использованию информации в пределах организаций, например, для поддержки управленческих решений или операционной деятельности, требующей наличия знаний.

В составе платформы данных Microsoft SQL Server 2012 цикл управления информацией организаций (обнаружение, получение, наращивание и управление) поддерживается следующими продуктами:

  1. Компонент «Project Barcelona» позволяет автоматически собрать информацию об имеющихся источниках данных, интеграционных проектах, сервисах, порталах и службах отчетности, а затем проследить связи между этими объектами.
  2. Компонент «Integration Services» служит для организации загрузки и преобразования данных между различными системами (в том числе, для загрузки данных в хранилище данных).
  3. Компонент «Data Quality Services» предоставляет стандартные средства очистки и сопоставления данных, на основании имеющихся баз знаний.
  4. Компонент «Master Data Services» предоставляет возможности по управлению нормативно-справочной информацией как на уровне дружественных Excel- и Web-интерфейсов, так и на уровне программных интерфейсов.

В результате применения перечисленных выше технологий процесс управления информацией организации может осуществляться в следующей последовательности:

  1. С помощью проекта Barcelona можно проанализировать имеющиеся базы данных, систематизировать эту информацию, выявить похожие сущности и т.д. На основании этой информации можно разрабатывать интеграционные проекты.
  2. В интеграционном проекте Integration Services по загрузке данных в хранилище данных первым шагом выполняется извлечение данных в промежуточную область.
  3. Следующим шагов данные во временных таблицах прогоняются через Data Quality Services, чтобы очистить в автоматическом режиме имеющиеся некорректные данные.
  4. Далее поток данных (колонки со справочными данными) сопоставляется с сущностями в Master Data Services.
  5. Если соответствие с нормативно-справочной информацией не найдено, эти записи можно сохранить в отдельном месте хранения и затем сопоставить/дедуплицировать c помощью Data Quality Services в ручном режиме, например, с использованием Excel и надстройки MDS с функциями DQS.
  6. Откорректированные данные с помощью SSIS публикуются в системе-потребителе (например, в хранилище данных).
  7. С помощью проекта Barcelona можно произвести автоматическую инвентаризацию имеющихся данных, интеграционных проектов и отчетных систем, что позволит в будущем учесть все зависимые системы при внесении изменений в структуры данных.

Пример такого интеграционного проекта с применением MDS и DQS показан в следующей демонстрации.

Виртуальная машина SQL Server 2012 CTP3

Виртуальная машина SQL Server 2012 CTP3 («Denali» CTP3) содержит полностью сконфигурированные сервисы и интеграцию с SharePoint 2010 и Office 2010. Судя по дате публикации, ей можно будет пользоваться до середины апреля 2012 года.

На виртуальной машине, в том числе, доступы такие компоненты как DQS и новый MDS. Можно посмотреть 2 примера модели BISM  и соответствующих отчетов Power View (Crescent).

Ссылка для скачивания: http://www.microsoft.com/download/en/details.aspx?id=27740

Дополнительная информация:

  1. MicrosoftBI.ru. Новые возможности в SQL Server 2012 CTP3 для бизнес-аналитики (Microsoft BI)
  2. One Click BI Blog. Getting Started with the SQL Server “Denali” CTP3 Image

Новые возможности в SQL Server 2012 CTP3 для бизнес-аналитики (Microsoft BI)

В этой статье рассмотрим, какие новые наиболее значимые функции появились в SQL Server 2012 CTP3 для задач бизнес-аналитики. Но сначала давайте рассмотрим, каким образом реализуются с помощью новой версии SQL Server различные уровни аналитического решения: персональная, коллективная и корпоративная аналитика.

  1. Персональная аналитика – это когда пользователи используютExcel с надстройкой PowerPivot в их каждодневной самостоятельной работе. Например, менеджер по продажам анализирует результаты своей работы.
  2. Коллективная аналитика – когда одни пользователи создают отчеты (например, в Excel, либо над моделью BISM с помощью Power View) и предоставляют эти отчеты в пользование другим сотрудникам. Например, директор департамента использует отчет, созданный другим сотрудником, или на основании модели BISM (например, опубликованной с помощью файла Excel) создает самостоятельно отчет Power View.
  3. Корпоративная аналитика – когда процесс создания аналитической модели  и отчетов берет на себя служба информационных технологий. При этом разрабатываются интеграционные пакеты по загрузке и очистке данных (с помощью Integration Services и Data Quality Services), формируются выверенные аналитические модели с едиными в пределах организации показателями, формируются согласованные между подразделениями отчеты.

Давайте рассмотрим наиболее важные нововведения в SQL Server 2012 CTP3. На следующем рисунке приведены компоненты SQL Server, а розовым цветом выделены наиболее значимые изменения.

Business Intelligence Semantic Model (BISM)

В составе аналитических сервисов введена семантическая модель бизнес-аналитики (BISM), которая объединяет в себе многомерную (ранее — UDM) и табличную модель данных (ранее – модель данных PowerPivot).

К BISM можно строить запросы с помощью языков MDX и DAX. Нужно только иметь в виду, что хотя с помощью DAX можно делать запросы к многомерной модели BISM (ранее — UDM), с помощью DAX в этой модели нельзя будет создавать новые показатели (в табличной модели BISM, разумеется, можно)…

В части доступа к данным для многомерной модели данных используются варианты хранения данных ROLAP, MOLAP и промежуточные. Для табличной модели используется режим VertiPaq (при этом в «Denali» на несколько порядков увеличились объемы данных, которые можно обрабатывать на сервере) и новый вариант доступа в виде прямого запроса к реляционной базе данных (при этом можно использовать индексы хранения колонок (ColumnStore indexes), о которых речь пойдет в дальнейшем.

Соответственно, модель можно формировать на основании большого набора источников данных, в том числе, потоков данных и данных из облачных сервисов (SQL Azure DataMarket).

Вне зависимости от используемого типа модели данных, на основании BISM можно строить отчеты, карты показателей и информационные панели с помощью широкого спектра пользовательских инструментов, к которым в Denali добавился Power View (ранее известный как «Crescent»).

Power View для интерактивного анализа данных

Новый компонент Power View позволяет обычным пользователям самостоятельно строить интерактивные отчеты и информационные панели на основании BISM.

Построение отчетов в Power View интуитивно понятно для обычных пользователей и характеризуется высокой интерактивностью и богатыми возможностями представления информации для анализа. Компонент автоматически связывает между собой различных части отчета, при выборе определенного элемента отчета показывает те же данные в других частях отчета, позволяет просматривать изменение данных в динамике и многое другое.

В следующем демонстрационном ролике показаны основные функции Crescent на примере организации по продаже товаров.

Отчеты Crescent также можно интегрировать в презентации PowerPoint и менять запросы к данным непосредственно в этом офисном продукте.

Data Quality Services для управления качеством данных

Новый компонент SQL Server 2012 CTP3 под названием Data Quality Services предназначен для очистки и/или устранения дубликатов в данных, загружаемых из источников.

Процесс работы с DQS состоит из двух основных этапов.

  1. Создается база знаний DQS, в которой задаются домены (анализируемые атрибуты данных) и правила очистки доменных значений (правила очистки, список правильных значений и альтернативных значений для переименования, внешние данные для сравнения). Далее по мере использования эта база знаний постоянно дополняется.
  2. На основании базы знаний создаются проекты DQS по очистке входных данных. При этом указывается входной
    источник, соответствия полей источника и доменов, данные из источника проходят автоматическую и ручную обработку, а затем могут быть экспортированы в SQL Server или CSV-файл.

Проекты DQS также можно использовать в пакетах Integrations Services для обработки новых записей в автоматическом режиме.

Улучшения в Master Data Services

В Master Data Services также есть множество значительных улучшений, среди которых:

  • надстройка MDS для Excel, позволяющая быстро создавать новые модели данных и осуществлять групповые изменения данных;
  • интеграция с проектами по управлению качеством данных (DQS);
  • для импорта информации для каждой сущности создается отдельная таблица, что значительно упрощает интеграцию (например, с помощью SSIS);
  • удобный веб-интерфейс с использованием технологии Silverlight.

В результате этих нововведений архитектура MDS в SQL Server 2012 принимает следующий вид.

Другие улучшение в SQL Server 2012 CTP3 для бизнес-аналитики
(Microsoft BI)

В числе других улучшений входят:

  • индексы хранения колонок (ColumnStore indexes) в реляционной базе данных позволяют на порядки ускорить операции JOIN на схеме базы данных тика «звезда», что значительно увеличивает производительность хранилищ данных;
  • SSRS в «Denali» работает как сервис общего доступа в SharePoint, что облегчает настройку и управление (резервное копирование, восстановление, ULS-журналирование, PowerShell), а также позволяет масштабировать решение;
  • благодаря возможности создания нотификаций в SSRS, интегрированных с SharePoint, пользователь интуитивно может для имеющихся отчетов задать условия, когда эти отчеты должны приходить по электронной почте;
  • появилась работать с SSRS в «облаке» (SQL Azure), благодаря чему операционная отчетность организаций может формироваться на базе данных SQL Azure, и можно встраивать отчеты в приложения Windows Azure или в пределах организации;
  • многое другое (об этом – в следующих публикациях).

PASS Summit 2010 — день третий

Третий день саммита прошел в более спокойном режиме. Все важные анонсы были сделаны в предыдущие дни, а ключевая сессия была сугубо технической и, я бы даже сказал, академической.

Большая часть сессий, которые я посетил, были посвящены существующим технологиям. Кроме последней сессии.

Но обо всем по порядку…

Ключевой доклад

Ключевой доклад третьего дня конференции начал Rick Heiges (вице-президент по маркетингу, PASS).

Rick Heiges (вице-президент по маркетингу, PASS)

В своей речи он:

  • озвучил новый состав президиума PASS;
  • рассказал о концепции работы PASS на ближайшие годы;
  • анонсировал новое событие PASS SQL Rally (www.sqlrally.com), которое представляет собой технический тренинг на несколько дней и пройдет 11-13 мая 2011 года в Орландо, Флорида;
  • анонсировал новый PASS Summit 2011.

PASS Summit 2011

Непосредственно ключевой доклад был посвящен теме оптимизации SQL-запросов. Эту тему представил David J. DeWitt (технический советник, подразделение платформы данных и хранения Microsoft).

David J. DeWitt начал с того, что задача оптимизации запросов (то есть преобразования SQL-запроса в наиболее эффективный план выполнения из возможных) является очень сложной задачей, которая впервые была сформулирована 30 лет назад Пэтом Силенгером (IBM Research).

Он привел пример запроса, который можно выполнить с помощью 22 млн. альтернативных планов, и в ходе своей презентации рассказал, как решается задача нахождения лучшего плана.

Если резюмировать, доклад о роли оптимизатора содержал информацию о том как формируются планы выполнения (логические и физические), почему в планах бывают неточности, как оценивается количество элементов в каждой ветке плана, как оценивается стоимость выполнения каждой ветки и плана в целом, как исключаются заведомо ненужные варианты планов.

Далее привожу несколько интересных слайдов. Доклад можно посмотреть по ссылке на странице http://www.sqlpass.org/summit/na2010/, а презентация доступна в блоге Дэвида.

Время выполнения различных физических планов

В заключительной части Дэвид рассказал о последних результатах исследований, которые позволят улучшить планы выполнения запросов.

Пространство результирующего плана

Сессия 1 – SSRS в интегрированном режиме SharePoint

Доклад Брайана Ларсона (Superior Consulting Services) был посвящен вопросам работы SSRS в интегрированном режиме SharePoint.

Брайан Ларсон (Superior Consulting Services)

В ходе доклада Брайан осветил вопросы:

  • архитектуры;
  • конфигурирования;
  • установки;
  • настройки библиотек SSRS;
  • использования ReportBuilder;
  • создания подписок;
  • версионности / check in-out / подтверждения контента;
  • создания копий отчетов со связью;
  • задания прав на отчеты;
  • создания нотификаций;
  • использования списков SharePoint в отчетах.

Сессия 2 – Хранимые процедуры Analysis Services

В своем докладе Стасия Миснер (Data Inspirations) подробно рассказала о том, как создавать, использовать и осуществлять отладку хранимых процедур SSAS, а также немного затронула тему использования функции OpenQuery.

Стасия Миснер (Data Inspirations)

Если резюмировать, процесс создания ASSP (Analysis Services Stored Procedure) состоит из трех шагов:

  • создание проекта .net для ASSP;
  • регистрация сборки;
  • запуск ASSP.

Создание проекта .net для ASSP

Варианты применения ASSP: статистические выборки, пространственные фильтры и прочее (примеры можно найти на www.codeplex.com).

Сессия 3 – Применение ReportBuilder и SharePoint PerformancePoint Services

На третьей сессии я побывал на двух докладах:

  • Bob Meyers. Использование ReportBuilder – подробности;
  • Craig Utley. Мониторинг и аналитика с помощью PerformancePoint Services.

В обоих докладах подробно раскрывались функции соответствующих продуктов, поэтому особенно комментировать нечего.

Bob Meyers. Использование ReportBuilder – подробности

Craig Utley. Мониторинг и аналитика с помощью PerformancePoint Services

Сессия 4 – Data Quality Services и Master Data Services

Наконец-то! Анонсы изменений в Master Data Services и нового компонента Data Quality Services…

Нововведения в Master Data Services представила Denise Draper (Microsoft).

Denise Draper (Microsoft)

Денис начала с рассказа об области задач Управления информацией предприятия (Enterprise Information Management — EIM). Понятно, что EIM – это скорее область знаний, но SQL Server «Denali» поддерживает ее требования с помощью:

  • компонента «Integration Services» для управления интеграцией приложений;
  • компонента «Master Data Services» для управления нормативно-справочной информацией предприятия;
  • нового компонента «Data Quality Services» для управления качеством данных;
  • набора инструментов анализа зависимостей и отслеживания определения источника появления данных.

EIM в проекте Denali

В части Integration Services SQL Server «Denali» обеспечит:

  • улучшение удобства использования инструментов разработки, таких как возможность настройки панели инструментов и undo-redo при редактировании пакетов интеграции;
  • улучшения механизмов отладки (журналирования и индикации ошибок), такие как история шагов выполнения потока управления и анализ отказов без перезапуска пакета;
  • управление проектами, конфигурациями и развертыванием за счет возможности отделить пакеты от конфигураций и новых возможностей управления и мониторинга.

Master Data Services в SQL Server «Denali» будет коробочным продуктом с возможностью управления мета информацией в Excel. Основная идея здесь состоит в том, что уже сейчас у подавляющего большинства клиентов справочники ведутся в Excel, и этот инструмент очень удобен для подобных задач.

Управление мета-информацией в Excel с помощью надстройки Master Data Services в SQL Server «Denali» - прототип

Будут также доступны инструменты для анализа влияния мета-информации, такие как «из какого источника получены эти колонки?» и «куда идут данные из этой таблицы?». Функции анализа влияния будут анализировать системы, находить таблицы, хранимые процедуры, пакеты и отчеты и записывать их взаимодействия.

Графический прототип просмотра зависимостей в SQL Server «Denali» Master Data Services

Далее Joseph Malka (директор по исследованиям и разработке DQ и MD, Microsoft) представил новый компонент SQL Server Denali — Data Quality Services.

Joseph Malka (директор по исследованиям и разработке DQ и MD, Microsoft)

Новый компонент позволит разрешить проблемы с качеством данных, такие как:

  • неверный формат данных;
  • несоответствие стандартным наименованиям;
  • неполнота, несоответствие и неполнота данных;
  • неверное значение некоторых атрибутов;
  • значения вне допустимых границ;
  • дубликаты.

Качество данных будет обеспечиваться за счет применения:

  • базы знаний по обеспечению качества данных (Data Quality Knowledge Base);
  • определения семантических моделей;
  • извлечение дополнительной информации из примеров данных и информации от пользователей системы;
  • открытость и расширяемость за счет внешних провайдеров ссылочных данных (например, на основании данных из SQL Azure Marketplace DataMart);
  • простота использования.

Далее Joseph Malka прокомментировал архитектуру решения и продемонстрировал работу существующего прототипа.

Архитектура Data Quality Services

В процессе демонстрации Joseph Malka показал создание предметной области, задания бизнес-правил, определение проекта, профилирование данных (прототип в виде изображения), авто-корректировку данных, просмотр и экспорт результатов обработки данных.

Задание соответствий

Объявление синонимов

Создание правила валидации

PASS Summit 2010 — день второй

Последнее изменение документа: 14.11.2010.

Продолжаю публикацию своих первых впечатлений от PASS Summit 2010. Хочу подчеркнуть, что все изложенное ниже – информация, записанная в процессе прослушивания (и перевода на русский) докладов конференции, причем, все это я пишу вечерами и ночами. Т.е. возможны ошибки. Каждую из изложенных тем в части бизнес-аналитики я буду подробно освещать в последующих постах, а пока описываю первые впечатления…

Ключевой доклад

Bill Graziano (главный вице-президент PASS по финансам) начал свой доклад с благодарностей различным представителям PASS, а закончил сведениями о бюджете сообщества и источниках финансирования.

Bill Graziano (главный вице-президент PASS по финансам)

Затем Квентин Кларк (главный менеджер группы систем баз данных Microsoft) начал основную часть, посвященную новой версии SQL Server с кодовым названием «Delani». Новая версия SQL Server была представлена в разрезе трех основных направлений: обеспечение работы критически важных приложений, продуктивность при разработке и бизнес-аналитика.

Квентин Кларк (главный менеджер группы систем баз данных Microsoft)

В части обеспечения работы критически важных приложений Квентин Кларк рассказал об индексе на уровне колонок и о функциях обеспечения высокой доступности (SQL Server AlwaysOn).

Гопал Ашок (Gopal Ashok, технический менеджер SQL Server) продемонстрировал группировку баз данных для настройки, auto-failover, возможность создание нескольких вторичных failover-экземпляров, чтение вторичного экземпляра, панель управления.

Gopal Ashok (технический менеджер SQL Server)

В части обеспечения продуктивности при разработке Квентин Кларк рассказал о улучшениях в  инструментах разработки, расширениях в возможности работы с 2D-пространственными данными и т.д.

Отдельное внимание было уделено возможности семантического поиска в базе данных, так как эта функция позволяет искать документа на основании того, на какую тему написан тот или иной документ. Т.е. индексируется тематика документов.

Рохан Кумар (Rohan Kumar, главный менеджер программ SQL Server RDBMS) продемонстрировал функцию FileTable, которая позволяет хранить файлы непосредственно в SQL Server и при этом работать с ними в Windows Shell. Была продемонстрирована возможность полнотекстового поиска по этим файлам и изменение имени и атрибутов файлов с помощью команд T-SQL. Все это очень важно для упрощения работы с файлами из SQL Server неразрывно с такими функциями SQL-платформы, как, например, транзакционность.

Rohan Kumar (главный менеджер программ SQL Server RDBMS) и Quentin Clark (главный менеджер Microsoft)

Дон Бокс (уважаемый инженер SQL Server, Microsoft) продемонстрировал набор инструментов с кодовым именем «Juneau», в частности:

  • интерактивный режим изменения свойств объектов;
  • функции импорта базы данных в Visual Studio 2010;
  • нахождение связанных объектов для выделенного объекта (нахождение зависимостей);
  • нахождение зависимых объектов, на которых влияет изменение в данный объект.

Дон Бокс (уважаемый инженер SQL Server, Microsoft) и Квентин Кларк (главный менеджер Microsoft)

В части функций бизнес-аналитики Квентин Кларк сделал основной акцент на функции самостоятельного анализа данных, о которых речь шла в предыдущие дни конференции, а также на управление интеграцией с помощью нового компонента SQL Server Data Quality Services.

Следующий докладчик, Jeff, сделал демонстрацию новых BI-возможностей.

Jeff (Microsoft)

Добавлена возможность управления данными Master Data Services в Excel.

Данные Master Data Services в Excel

Появился новый компонент SQL Server для управления качеством данных — Data Quality Services.

Data Quality Services

В SSIS добавлена возможность очистки данных, возможность отмены/восстановления (undo/redo) в BIDS.

Очистка данных в SSIS

Добавлен функционал анализа влияния изменений в структуры данных на уровне пакетов SSIS.

В заключение сессии Квентин Кларк объявил, что сегодня доступен предварительный просмотр SQL Server «Denali» (CTP1, можно скачать в Центре загрузки Microsoft) и заметил, что в первый раз вместе с объявлением планов выхода новой версии продукта эта версия в тот же день доступна в виде CTP…

Сессия 1 – SQLCAT: конфигурирование SharePoint 2010 и SQL Azure Reporting в «облаке»

Во время первой сессии я побывал на двух докладах из 14-ти, видимо, из природного любопытства…

На докладе SQLCAT о конфигурировании и обеспечении безопасности приложений SharePoint 2010 Карл Ребелер и Адам Сакстон рассказывали о многих технических вещах, в частности о различии Claim-based и Kerberos аутентификации.

Когда я зашел на доклад про SSRS в «облаке», Russel Humphries и Vasile Parasciv рассказывали об архитектуре SQL Azure Reporting Services для «облака» и о портале для разработки.

Также они призвали всех регистрироваться в качестве участников технологического просмотра SQL Azure Reporting по ссылке http://connect.microsoft.com/sqlazurectps.

Сессия 2 – Концепция Microsoft BI

Концепцию Microsoft BI представили Амир Нетз (уважаемый инженер Microsoft) и Дональд Фармер (менеджер программ Microsoft BI).

Амир Нетз (уважаемый инженер Microsoft) и Дональд Фармер (менеджер программ Microsoft BI)

Сначала коллеги рассказали о том, как PowerPivot позволяет решить проблему с неуправляемыми отчетами в Excel и продемонстрировали анализ данных в PowerPivot путем экспорта потоков данных из SSRS, использование DAX, галерею PowerPivot, панель управления PowerPivot, отчет SSRS на основании данных использования отчетов PowerPivot.

Во второй демонстрации показали возможность отображения отчетов SSRS в качестве объектов Pivot. Эта демонстрация показала изменение парадигмы отчетов – ориентацию на людей (сотрудников организаций).

Дополнение от 14.11.2010: Как сделать подобное приложение читайте здесь.

В ходе сессии коллеги подробно рассказали о концепции Microsoft BI, что в итоге свели к 4-м пунктам.

1. Microsoft ориентируется на положительный опыт людей (интерес, успех, возврат инвестиций и готовность поделиться положительным опытом) при использовании аналитических приложений.

2. Целевая аудитория приложений PowerPivot, Crescent и Pivot – 1 миллиард людей.

3. Не зависимо от объемов данных – один способ анализа информации (ага, похоже, это моя аналогия с машиной времени из фильма назад в будущее 🙂 – подробнее см. здесь).

4. Использование «облака» для создания непрерывности использования аналитических приложений уровня предприятия.

Сессия 3 – Готовим с помощью Reporting Services (рецепты продвинутой разработки отчетов)

Сессию представил Paul Turley (BI-архитектор Hitachi Consulting).

Paul Turley (BI-архитектор Hitachi Consulting)

Paul выделил следующие типы отчетов SSRS (в порядке убывания частоты реализации):

  • с использованием стандартных средств SSRS;
  • с продвинутыми комбинациями стандартных средств SSRS;
  • креативное комбинирование функций;
  • безумные отчеты, для которых SSRS не предназначен (наподобие тех, которые вчера показывали на сессии BI Hour).

В первой демонстрации Пол показал как задать номера страниц для групп и листов отчета.

Во второй демонстрации Пол показал, как можно сделать различное отображение в отчета в SSRS и Excel. Если резюмировать, нужно сделать два табликса, для каждого из которых задать значение свойства Hidden в зависимости от переменной Global!RenderFormat.

Демонстрация 3 была о создании строки ссылок в отчете с помощью выражений Visual Basic и объекта SSRS matrix.

Далее Пол рассказал о возможности локализации отчетов SSRS с помощью сборки .Net и использовании объектов Check-list для выбора параметров отчета.

В последней демонстрации Пол показал результат создания интерактивного отчета SSRS для просмотра кубов с возможностью фильтрации по измерениям и выбора мер.

Сессия 4 – SQL Server «Denali». Что нового в Analysis Services и PowerPivot?

Сессию представили Т.К.Ананд и Ашвини Шарма (главные менеджеры программ Microsoft BI).

Т.К.Ананд и Ашвини Шарма (главные менеджеры программ Microsoft BI)

В новой версии SQL Server «Denali» простоту создания моделей обеспечит семантическая модель бизнес-аналитики (BI Semantic Model, BISM). В Visual Studio будет доступен BI Semantic Model Designer, который обеспечит знакомый и интуитивный инструмент проектирования с функцией WYSIWYG (отображение результата непосредственно в процессе проектирования).

В части обеспечения богатства BI-семантики в PowerPivot коллеги рассказали о следующих новых функциях:

  • задание показателей эффективности (KPI);
  • задание перспектив (после переключения в продвинутый режим PowerPivot);
  • поддержка измерений родитель-потомок (parent-child) с помощью функций DAX (PATH, PATHITEM и LOOKUP);
  • иерархии, задаваемые пользователями;
  • функция RANK;
  • вычисления DistinctCount с помощью движка VertiPaq;
  • детализация данных в реляционный источник (Drill Through) – в планах разработки.

Ключевые показатели эффективности в PowerPivot (Denali)

Перспективы в PowerPivot

Также на базе семантической модели будет обеспечиваться безопасность на детальном уровне гранулярности (в планах разработки).

В части обеспечения масштабирования и производительности был показан пример работы с данными в памяти с помощью Visual Studio. Характеристики примера: 2 миллиарда строк, 16 процессорных ядер, 10 MDX-запросов к SSAS, 94 миллисекунды на каждый запрос.

Таким образом, единственным узким местом в случае применения этого режима работы с данными является скорость шины ОЗУ.

Новый подход оптимизирован под x86 и x64 платформы и ориентирован на тренд удешевления оперативной памяти. Масштабирование до уровня предприятия обеспечивается за счет сжатия данных и секционирования.

В SQL Server «Denali» представлена единая семантическая модель для OLAP (UDM) и отчетов (SMDL). Благодаря этой модели будут доступны возможности:

  • использования DAX как языка запросов для Crescent;
  • использования запросов VertiPaq и реального времени;
  • использование программных интерфейсов (API) – реляционного и многомерного;
  • поддержки нового аппаратного обеспечения;
  • гранулярной безопасности;
  • инструментов разработки.

BI Semantic Model

В SQL Server «Denali» BISM и UDM будут сосуществовать.

Архитектура PowerPivot и Analysis Services в Denali