Семантическая модель аналитических данных (BISM)

Последнее обновление: 16.04.2014

В SQL Server в составе аналитических сервисов (SQL Server Analysis Services) доступна для использования семантическая модель бизнес-аналитики (BISM – Business Intelligence Semantic Model), которая объединяет в себе многомерную модель аналитических данных (ранее носившую название UDM – Unified Dimensional Model) и табличную модель аналитических данных (также известную как модель данных PowerPivot).

Табличная (tabular) модель может быть самостоятельно создана офисными сотрудниками в Excel (с помощью компонента PowerPivot).

Табличная модель в Excel позволяет:

  • включить в модель данные из произвольных источников;
  • быстро работать с объемыми данных в десятки миллионов строк, что достугается сжатием данных на уровне колонок с помощью движка xVelocity или VertyPaq;
  • создавать вычисления с помощью языка запросов DAX (Data Analysis Expressions).

Табличную модель Excel можно преобразовать в табличный проект SQL Server Data Tools (SSDT) – по сути проект Visual Studio для бизнес-аналитики, а затем опубликовать в табличном экземпляре аналитических сервисов.

Табличный проект позволяет дополнительно использовать секционирование и разграничение доступа к объектам модели вплоть до уровня данных. С точки зрения хранения данных это может быть хранение в ОЗУ сервера (режим xVelocity, объемы данных ограничены только объемом ОЗУ сервера) и хранение непосредственно в базе SQL Server (Direct Query; при этом рекомендуется использовать индексы хранения на уровне колонок – ColumnStore Indexes).

Возможна организация циклического процесса разработки моделей, когда офисные пользователи (аналитики) модифицируют модель в Power Pivot, а сотрудники ИТ-подразделения импортируют модель в Visual Studio (SSDT), публикуют ее и применяют к ней дополнительные XMLA-скрипты для прописывания прав доступа и других расширений модели.

Многомерный проект создается как и раньше в Visual Studio (SQL Server Data Tools), для вычислений использует язык запросов MDX (Multi-Dimensional Expressions), позволяет использовать различные стратегии доступа к данным (ROLAP, MOLAP, HOLAP), различные стратегии агрегирования и так далее. В конечном итоге многомерный проект позволяет реализовать наиболее сложные аналитические модели на максимально возможных объемах данных. Недостатки многомерной модели – требуется высокая квалификация разработчика модели, а для создания модели должно быть предварительно подготовлено хранилище данных – нет возможности на лету подключать дополнительные источники данных.

В следующем докладе рассказывается подробнее о многомерных моделях и показаны демонстрации работы с такими моделями.

Про оптимизацию производительности многомерных кубов можно посмотреть доклад на TechDays.ru.

Вне зависимости от используемого типа модели данных, на основании BISM можно строить отчеты, карты показателей и информационные панели с помощью широкого спектра пользовательских инструментов (табличные модели при публикации для приложений выглядят так же, как многомерные модели).

Дополнительная информация:

  1. MSDN. Introducing the BI Semantic Model in Microsoft® SQL Server® 2012
  2. MSDN. Choosing a Tabular or Multidimensional Modeling Experience in SQL Server 2012 Analysis Services
  3. MSDN. Analysis Services MOLAP Performance Guide for SQL Server 2012 and 2014
  4. MSDN. Securing the Tabular BI Semantic Model
  5. MSDN. Using DirectQuery in the Tabular BI Semantic Model

Практические рекомендации по SSAS OLAP:

Полезные ссылки по табличной модели BISM:

Демонстрация инструментов разработчика решений Microsoft BI

В демонстрации показана работа с инструментами разработчика решений Microsoft BI (Business Intelligence Development Studio (BIDS) иSharePoint Dashboards Designer).

Последовательность демонстрации:

  • создание пакета интеграции в BIDS;
  • подключение к Microsoft Dynamics CRM с помощью партнерского коннектора компании CozyRoc;
  • Fuzzy Lookup Transformation;
  • загрузка данных в промежуточную область и в хранилище;
  • модель аналитического куба;
  • вид карты показателей в Dashboards Designer.

Дополнительная информация:
Инструменты разработчика решений Microsoft BI

Как добиться русских наименований в PivotTable для кубов SSAS?

При работе с аналитическими кубами в Excel может возникнуть проблема, что наименования измерений и показателей отображаются на английском языке (по умолчанию), хотя в кубе настроен перевод терминов на русский язык. Как заставить Excel (PivotTable) отображать названия на русском?

Для этого в параметрах соединения к аналитическому кубу SQL Server Analysis Services небходимо добавить в строку соединения следующий текст: «;LocaleIdentifier=1049».

Настройка безопасности SharePoint 2010 Excel Services и SQL Server Analysis Services

Важным вопросом при размещении на портале SharePoint 2010 файлов Excel, содержащих PivotTable с коннекцией к кубам SQL Server Analysys Servives 2008 R2 является обеспечение безопасности при отображении данных куба. В данном случем оптимальный вариант – это когда пользователь работает под учетной записью Windows, и данные куба отображаются в соответствии с ограничениями безопасности для уэтой учетной записи.

В SharePoint 2010 NTLM-аутентификация больше не поддерживается. Необходимо использовать Windows-аутентификацию по протоколу Kerberos.

Как это сделать можно узнать путем изучения материалов по приведенным ниже ссылкам.

Скрипт русификации AdventureWorksDW и русифицированный пример данных для Data Mining Add-ins for Office 2007

Долгожданный скрипт русификации базы AdventureWorksDW можно скачать по адресу http://RussianAW.codeplex.com.Описание русифицированных колонок и значений есть в документации на сайте проекта. Скрипт будет дополняться – пока это только альфа-версия.

Соответственно, русифицированный пример таблицы Excel для Data Mining Add-ins for Office 2007 можно скачать по адресу http://RussianDMAddins.codeplex.com.

Комментарии и дополнения приветствуются.

Бесплатное обучение SQL Server 2008 Analysis Services

logo_appdev

В течение ограниченного количества времени есть возможность пройти бесплатное двухчасовое онлайн-обучение SSAS 2008. Курс ведет эксперт Ann Weber — MCT, MCITP по технологии SQL Server, MCSE.

Обучение включает пошаговые демонстрации, лабораторные работы, материалы курса для вывода на печать, экзаменационные вопросы.

В состав тем курса входят следующие темы:

  • что такое Bisiness Intelligence;
  • обзор клиента SSAS;
  • многомерное модлирование (OLAP);
  • моделирование в BIDS;
  • использование BIDS;
  • создание аналитических кубов.

Источник: MSDN Flash Newsletter

Интеллектуальный анализ данных (Data Mining)

Периодически мне задают вопросы по технологии Data Mining в Microsoft SQL Server Analysis Services, в частности, что это за технология Data Mining, какие алгоритмы реализованы в решении Microsoft, в чем особенности решения, какие есть возможности расширения. В связи с этим решил написать в своем блоге небольшую заметку на эту тему.

Итак, Data Mining («добыча данных», англ.) – это технологии анализа больших объемов данных для обнаружения (очень сильно) скрытых закономерностей. Это достаточно молодая технология (возраст менее 20 лет), но эффективные алгоритмы были разработаны в результате исследования баз данных, хотя использует комбинацию давно известных методов статистики и теории вероятности.

Наиболее типичные примеры использования технологии Data Mining:

  • поиск прибыльных клиентов;
  • понимание потребностей пользователей;
  • упреждение смены клиентов;
  • предсказание продаж;
  • построение эффективных маркетинговых кампаний;
  • обнаружение и предотвращение мошенничества;
  • исправление данных в процессе ETL.

Процесс интеллектуального анализа данных состоит из следующих шагов.

Шаги интеллектуального анализа данных

1. Создаем модель добычи данных с использованием определенного алгоритма, настроенная на некоторую входную выборку данных.

2. С помощью некоторых тренировочных данных (в которых известны как исходные атрибуты, так и те атрибуты, которые мы собираемся предсказывать в будущем) производим обучение модели добычи данных.

3. После обучения на вход модели добычи данных можно подавать предсказываемые данные (в которых неизвестны интересующие нас атрибуты, значение которых мы собираемся предсказать); в результате работы алгоритма будут с определенной вероятностью предсказаны неизвестные атрибуты.

Создание модели добычи данных может производиться с использованием инструментов: Business Intelligence Development Studio, Microsoft Excel, Microsoft Visio, SQL Server Management Studio. SQL Server поддерживает построение моделей добычи данных как на реляционных, так и на OLAP-источниках данных.

20090805-architecture
Использование (отображение) результатов работы моделей добычи данных может производиться с использованием Microsoft Excel, Microsoft Visio, SQL Server Reporting Services или разрабатываемого вами приложения (через средства OLE DB, ADOMD, XMLA, AMO).

Модель добычи данных может использовать для решения одной задачи различные альтернативные алгоритмы.

В SQL Server 2008 (Enterprise Edition) содержатся следующие алгоритмы интеллектуального анализа данных:

  • алгоритм взаимосвязей;
  • алгоритм кластеризации;
  • алгоритм дерева принятия решений;
  • алгоритм линейной регрессии;
  • алгоритм логистической регрессии;
  • упрощенный алгоритм Байеса;
  • алгоритм нейронной сети;
  • алгоритм кластеризации последовательностей;
  • алгоритм временных рядов.

Подробную информацию об алгоритмах можно прочитать на ресурсе Microsoft Books Online.

Примеры интеллектуального анализа данных можно посмотреть в записи следующего доклада.

Компоненты интеллектуального анализа данных SQL Server 2005/2008 содержат множество программных интерфейсов (API), которые можно использовать для включения функций интеллектуального анализа данных в приложения.

Из управляемого кода .NET можно использовать:

  • AMO (Analysis Management Objects);
  • ADOMD.NET (для клиентских приложений);
  • ADOMD Server (для хранимых процедур на уровне сервера).

Из родного кода C++ можно использовать «OLE DB for Data Mining».

Для работы с Data Mining через Интернет можно использовать интерфейсы ASP.NET, .NET и XML для анализа (XMLA) напрямую через HTTP.

В собственных приложениях вы также можете использовать стандартные средства отображения моделей интеллектуального анализа данных (Data Mining Viewers), которые используются в Business Intelligence Development Studio и SQL Management Studio. Соответствующие управляющие элементы можно загрузить по этой ссылке.

Аналитические сервисы SQL Server 2005 Analysis Services имеют родной доступ ко всем объектам с использованием веб-сервисов через XML для анализа (XMLA). Таким образом, любая модель добычи данных может быть реализована в виде веб-сервиса.

Поддержка XML для анализа (XMLA) в SQL Server Data Mining позволяет получать доступ к своим функциям через SOAP-протоколы от клиентов, построенных не на платформе Windows.

В SQL Server 2005/2008 можно подключать собственные алгоритмы и средства визуализации для собственных или стандартных (встроенных) алгоритмов.

На сайте Microsoft доступно описание подключения алгоритмов интеллектуального анализа данных, а на сервере sqlserverdatamining.com – руководство с примерами кода.

Пример дополнительного алгоритма визуализации: Support Vector Machines for SQL Server Data Mining.

Интеллектуальный анализ текста (Text mining) производится в два шага.

Сначала необходимо использовать трансформации интеллектуального анализа текста (Term Extraction and Term Lookup) в Integration Services для построения словаря и извлечения ключевых слов и фраз из исходных текстовых данных в реляционные таблицы.

Вторым шагом необходимо применить алгоритмы интеллектуального анализа данных в Analysis Services непосредственно для анализа полученных данных.

Полное описание процесса интеллектуального анализа текста находится на ресурсе SQLServerDataMining.com.

Ссылки

Официальная информация от Microsoft:

Онлайн-примеры DM находятся на ресурсе SQLServerDataMining.com, наполнением которого занимается команда разработки SQL Server Data Mining. Примеры доступны в разделе Live!Samples, а код примеров можно скачать в разделе Downloads.

Примеры проектов на сайте Codeplex: Microsoft SSAS Samples (OLAP, Data Mining, Administration)

Прочие веб-касты на английском:

Видео-записи на русском языке:

Форумы:

Блоги:

Сообщества: