Примеры внедрений Microsoft BI

Последнее обновление: 31.05.2012

Очень часто задают вопрос о наиболее интересных примерах внедрений Microsoft BI. В этой заметке я напишу о примерах, которые показались мне наиболее интересными.

Хранилище данных на базе SQL Server DB + загрузка данных

Социальная сеть «MySpace»

MySpace Uses SQL Server Service Broker to Protect Integrity of 1 Petabyte of Data

  • 1 Пбайт данных управляется SQL Server
  • 827 миллиардов строк данных
  • 440 экземпляров SQL Server
  • 130 миллионов активных пользователей ежемесячно
  • 300 тысяч новых пользователей в день
  • 4.4 миллиона конкурентных пользователей в моменты пиковой нагрузки
  • 18 тысяч сообщений сервис-брокера в секунду (при тестировании)

Хранилище данных на базе SQL Server DB + загрузка данных с помощью SSIS + аналитические кубы SSAS + отчеты SSRS

Сеть отелей «Hilton»

  • Система прогнозирования резервирований комнат
  • Полный пакет SQL-продуктов (SQL, AS, IS, RS)
  • Разнесение экземпляров Analysis Services и Reporting Services на отдельные сервера (scale out)
  • Балансировка нагрузки на сервера Analysis Services (чтение)
  • От 40 до 50 конкурентных пользователей на сервер Reporting Services
  • Сложные запросы
  • Большие наборы данных возвращаются на множество клиентов
  • Сервера IBM xSeries и IBM Blade Center

http://www.microsoft.com/casestudies/casestudy.aspx?casestudyid=49192

Хранилище данных на базе SQL Server DB с использованием FastTrack Data Warehouse

Stein Mart

  • Первый пример внедрения FastTrack DW
  • Сэкономлено $50,000 в месяц после миграции AS/400
  • Ускорение работы – 3 часа обработки вместо 14 часов
  • Меньше людей поддерживает решение
  • Пользователи полюбили новые инструменты!
  • Хранилище данных объемом 4 Тбайт

http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?casestudyid=4000007013

Хранилище данных на базе Parallel Data Warehouse (PDW)

Hy-Vee (сеть супермаркетов в США) внедрили хранилище данных на базе PDW (официальная информация доступна на сайте Microsoft).

Характеристики проекта:

  • до внедрения — 11 Тбайт данных в хранилище данных (данные за 7 лет, объемы постоянно растут; после внедрения объемы данных были увеличены в несколько раз)
  • ежедневная загрузка более 800 тысяч строк (после внедрения, очевидно, в разы больше) •OLAP-кубы
  • регламентированная отчетность Reporting Services

Результаты:

  • увеличение производительности до 100 раз
  • возможность просмотра данных за вчерашний день для реагирования на тренды (до внедрения PDW могли лишь посмотреть данные двухнедельной давности)
  • стало возможным выполнять значительно более сложные запросы к данным.

Информационные панели, карты показателей и отчетность

ООО «РН-Юганскнефтегаз»

Внедренные продукты:
Microsoft Office SharePoint Server
2007, с использованием таких инструментов, как PerformancePoint, SQL Server SSAS, SSRS, SSIS

В результате проведенных работ была внедрена система, обеспечивающая возможность одновременной работы более 180 подразделений Общества, работающих в локальной сети Общества. При разработке Системы была предусмотрена возможность последующего расширения пользователей системы до 2 000 человек.

Внедрение Системы позволило достичь следующих результатов:

  1. Увеличение прозрачности картины по результативности работы подразделений за счет ведения рейтингов эффективности;
  2. Упрощение анализа эффективности деятельности Общества за счет структурирования информации и отображения ее в оптимальном для восприятия виде;
  3. Обеспечение перехода к управлению по показателям в соответствии с современными стандартами Управления эффективностью деятельности (Business Performance Management).

http://www.microsoft.com/rus/casestudies/Case_Study_Detail.aspx?casestudyid=4000008236

Интеллектуальный анализ данных (SQL Server Analysis Services Data Mining)

Максим Гончаров посмотрел имеющиеся примеры и выбрал наиболее интересный вариант (первый в таблице). Остальные примеры Максим порекомендовал взять из заметки Data Mining Case Studies в блоге главного (бывшего) архитектора Jamie MacLennan.

Страна Отрасль Пример внедрения
США Финансовые сервисы Внедрение аналитической системы по оптимизации страховых фондов и риск-менеджмента на платформе Analysis Services в страховой компании EMC партнером PolyVista. Используется OLAP и Data Mining (предиктивные модели, формирующие правила и обнаруживающие шаблоны для оптимизации размеров страховых взносов; формирование оптимальных размеров запасов; управление рисками).Страховая компания использует BI для улучшения управления финансовыми сервисами
Филиппины Развлечения Wireless Services Firm Doubles Response Rates with SQL Server 2005 Data Mining 10/23/05
Канада Профессиональные сервисы Microsoft Partner Helps Internet-Monitoring Company Crawl 750 Million Pages Monthly 01/17/07
Франция Профессиональные сервисы E-Commerce Provider Boosts Competitiveness with Microsoft Technology and Partnership 02/04/07
Франция Торговля French Retailer Deploys Powerful Solution to Handle 1 Million Orders a Day 09/04/06
Израиль Здравоохранение Microsoft SQL Server 2005 Data Mining Helps Clalit Preserve Health and Save Lives 11/03/05
Франция Производство New Business Intelligence Solution Reduces Customer Churn by 25 to 30 Percent 03/16/06
США Правительство The Illinois Department of Transportation Saves Lives with Microsoft Business Intelligence Solution 21-Apr-08
Германия Перевозки и логистика Global Air Freight Company Analyzes Mission Critical Logistics Data with SQL Server 2005 02/01/06
Великобритания Развлечения Scalable Data Warehouse Helps U.K. Lifestyle Group Consolidate Multiple Data Sources in Just Three Months 11/07/06
Италия Финансовые сервисы New Information System Increases Efficiency and Helps Double Profits at Italian Bank 02/16/07
Великобритания Образование Analytical Tools Help Research Group Provide New Insight Into How Darwin Developed His Theory of Evolution 11/07/06
Великобритания Образование Research Group Unlocks the Secrets of Darwinian Research with Mapping and Database Software 18-Mar-08
США Производство Xerox Develops Scalable, Hosted Solution to Optimize Global Print Fleet Management 11/11/05
США Профессиональные сервисы Database Products Help Real Estate Service Evaluate Millions of Homes Daily, Cut Costs 08/24/06
США Финансовые сервисы Zurich in North American Anticipates U.S.$25 Million Gain with SQL Server 2005 Solution 01/22/07

По России есть множество успешных внедрений, но примеров для публикации пока нет (многие компании стараются не афишировать внедрения интеллектуального анализа данных, видимо, из конкурентных соображений)… Повод для размышлений… 😉

Возможна ли автоматическая авторизация в SSRS пользователя, авторизованного в Project Server?

В SSRS 2008 и Project Server 2007 можно использовать Windows-аутентификацию. Для автоматического обновления списка пользователей из AD нужно настроить расписание запуска работы синхронизации списков пользователей Project Server и SSRS с Active Directory, либо добавлять пользователей Active Directory вручную.

Настройки безопасности можно делать на уровне групп Active Directory. В случае необходимости настройки безопасности для пользователей индивидуально на уровне элементов данных, группы пользователей и права в Project Server 2007 и SSRS 2008 нужно будет настраивать отдельно.

Если SSRS и Project Server размещены на разных машинах, нужно будет также настроить Kerberos Delegation.

В части использования веб-партов SSRS на WSS (или SharePoint) обычная проблема состоит в том, что браузер (Internet Explorer) запрашивает логин и пароль при открытии страницы с веб-партом отчета. Решение в данном случае – внести в IE настройки зоны, в которую попадает сервер SSRS, а также настройки автоматической аутентификации в этой зоне.

Как добиться русских наименований в PivotTable для кубов SSAS?

При работе с аналитическими кубами в Excel может возникнуть проблема, что наименования измерений и показателей отображаются на английском языке (по умолчанию), хотя в кубе настроен перевод терминов на русский язык. Как заставить Excel (PivotTable) отображать названия на русском?

Для этого в параметрах соединения к аналитическому кубу SQL Server Analysis Services небходимо добавить в строку соединения следующий текст: «;LocaleIdentifier=1049».

Настройка безопасности SharePoint 2010 Excel Services и SQL Server Analysis Services

Важным вопросом при размещении на портале SharePoint 2010 файлов Excel, содержащих PivotTable с коннекцией к кубам SQL Server Analysys Servives 2008 R2 является обеспечение безопасности при отображении данных куба. В данном случем оптимальный вариант – это когда пользователь работает под учетной записью Windows, и данные куба отображаются в соответствии с ограничениями безопасности для уэтой учетной записи.

В SharePoint 2010 NTLM-аутентификация больше не поддерживается. Необходимо использовать Windows-аутентификацию по протоколу Kerberos.

Как это сделать можно узнать путем изучения материалов по приведенным ниже ссылкам.

Данные из каких источников можно использовать в PowerPivot?

В PowerPivot можно загружать данные из следующих источников:

 Базы данных:

  • Реляционные базы SQL Server
    • 2005, 2008, 2008 R2
  • Access
    • 2003, 2007, 2010
  • Analysis Services и PowerPivot
    • 2005, 2008, 2008 R2
  • Другие источники
    • SQL Server Azure
    • Oracle
    • Teradata
    • Sybase
    • Informix
    • DB2
    • OLEDB/ODBC

 Файлы:

  • Текстовые файлы (delimited)
  • Excel: версия 97 и выше

 Потоки данных (data feeds):

  • Reporting Services
    • Отчеты Reporting Services 2008 R2, выставляющие области данных как потоки ATOM
  • Другие потоки
    • SharePoint 2010 lists
    • ADO.NET Data Services
    • Project Dallas
    • Microsoft-hosted commercial data sets
    • Любой документ сервисов данных (.atomsvc)

Интеллектуальный анализ данных (Data Mining)

Периодически мне задают вопросы по технологии Data Mining в Microsoft SQL Server Analysis Services, в частности, что это за технология Data Mining, какие алгоритмы реализованы в решении Microsoft, в чем особенности решения, какие есть возможности расширения. В связи с этим решил написать в своем блоге небольшую заметку на эту тему.

Итак, Data Mining («добыча данных», англ.) – это технологии анализа больших объемов данных для обнаружения (очень сильно) скрытых закономерностей. Это достаточно молодая технология (возраст менее 20 лет), но эффективные алгоритмы были разработаны в результате исследования баз данных, хотя использует комбинацию давно известных методов статистики и теории вероятности.

Наиболее типичные примеры использования технологии Data Mining:

  • поиск прибыльных клиентов;
  • понимание потребностей пользователей;
  • упреждение смены клиентов;
  • предсказание продаж;
  • построение эффективных маркетинговых кампаний;
  • обнаружение и предотвращение мошенничества;
  • исправление данных в процессе ETL.

Процесс интеллектуального анализа данных состоит из следующих шагов.

Шаги интеллектуального анализа данных

1. Создаем модель добычи данных с использованием определенного алгоритма, настроенная на некоторую входную выборку данных.

2. С помощью некоторых тренировочных данных (в которых известны как исходные атрибуты, так и те атрибуты, которые мы собираемся предсказывать в будущем) производим обучение модели добычи данных.

3. После обучения на вход модели добычи данных можно подавать предсказываемые данные (в которых неизвестны интересующие нас атрибуты, значение которых мы собираемся предсказать); в результате работы алгоритма будут с определенной вероятностью предсказаны неизвестные атрибуты.

Создание модели добычи данных может производиться с использованием инструментов: Business Intelligence Development Studio, Microsoft Excel, Microsoft Visio, SQL Server Management Studio. SQL Server поддерживает построение моделей добычи данных как на реляционных, так и на OLAP-источниках данных.

20090805-architecture
Использование (отображение) результатов работы моделей добычи данных может производиться с использованием Microsoft Excel, Microsoft Visio, SQL Server Reporting Services или разрабатываемого вами приложения (через средства OLE DB, ADOMD, XMLA, AMO).

Модель добычи данных может использовать для решения одной задачи различные альтернативные алгоритмы.

В SQL Server 2008 (Enterprise Edition) содержатся следующие алгоритмы интеллектуального анализа данных:

  • алгоритм взаимосвязей;
  • алгоритм кластеризации;
  • алгоритм дерева принятия решений;
  • алгоритм линейной регрессии;
  • алгоритм логистической регрессии;
  • упрощенный алгоритм Байеса;
  • алгоритм нейронной сети;
  • алгоритм кластеризации последовательностей;
  • алгоритм временных рядов.

Подробную информацию об алгоритмах можно прочитать на ресурсе Microsoft Books Online.

Примеры интеллектуального анализа данных можно посмотреть в записи следующего доклада.

Компоненты интеллектуального анализа данных SQL Server 2005/2008 содержат множество программных интерфейсов (API), которые можно использовать для включения функций интеллектуального анализа данных в приложения.

Из управляемого кода .NET можно использовать:

  • AMO (Analysis Management Objects);
  • ADOMD.NET (для клиентских приложений);
  • ADOMD Server (для хранимых процедур на уровне сервера).

Из родного кода C++ можно использовать «OLE DB for Data Mining».

Для работы с Data Mining через Интернет можно использовать интерфейсы ASP.NET, .NET и XML для анализа (XMLA) напрямую через HTTP.

В собственных приложениях вы также можете использовать стандартные средства отображения моделей интеллектуального анализа данных (Data Mining Viewers), которые используются в Business Intelligence Development Studio и SQL Management Studio. Соответствующие управляющие элементы можно загрузить по этой ссылке.

Аналитические сервисы SQL Server 2005 Analysis Services имеют родной доступ ко всем объектам с использованием веб-сервисов через XML для анализа (XMLA). Таким образом, любая модель добычи данных может быть реализована в виде веб-сервиса.

Поддержка XML для анализа (XMLA) в SQL Server Data Mining позволяет получать доступ к своим функциям через SOAP-протоколы от клиентов, построенных не на платформе Windows.

В SQL Server 2005/2008 можно подключать собственные алгоритмы и средства визуализации для собственных или стандартных (встроенных) алгоритмов.

На сайте Microsoft доступно описание подключения алгоритмов интеллектуального анализа данных, а на сервере sqlserverdatamining.com – руководство с примерами кода.

Пример дополнительного алгоритма визуализации: Support Vector Machines for SQL Server Data Mining.

Интеллектуальный анализ текста (Text mining) производится в два шага.

Сначала необходимо использовать трансформации интеллектуального анализа текста (Term Extraction and Term Lookup) в Integration Services для построения словаря и извлечения ключевых слов и фраз из исходных текстовых данных в реляционные таблицы.

Вторым шагом необходимо применить алгоритмы интеллектуального анализа данных в Analysis Services непосредственно для анализа полученных данных.

Полное описание процесса интеллектуального анализа текста находится на ресурсе SQLServerDataMining.com.

Ссылки

Официальная информация от Microsoft:

Онлайн-примеры DM находятся на ресурсе SQLServerDataMining.com, наполнением которого занимается команда разработки SQL Server Data Mining. Примеры доступны в разделе Live!Samples, а код примеров можно скачать в разделе Downloads.

Примеры проектов на сайте Codeplex: Microsoft SSAS Samples (OLAP, Data Mining, Administration)

Прочие веб-касты на английском:

Видео-записи на русском языке:

Форумы:

Блоги:

Сообщества:

Ссылки по теме Data Mining

На «Платформе 2008» задавали вопрос, где можно посмотреть онлайн-примеры  использования Microsoft Data Mining и записи лекций Рафаля Лукавецки…

Онлайн-примеры DM находятся на замечательном ресурсе SQLServerDataMining.com, который совсем недавно был переработан, и наполнением которого занимается команда разработки SQL Server Data Mining. Примеры доступны в разделе Live!Samples, а код примеров можно скачать в разделе Downloads.

Записи докладов Рафаля Лукавецки на английском языке: