Скрипт русификации AdventureWorksDW и русифицированный пример данных для Data Mining Add-ins for Office 2007

Долгожданный скрипт русификации базы AdventureWorksDW можно скачать по адресу http://RussianAW.codeplex.com.Описание русифицированных колонок и значений есть в документации на сайте проекта. Скрипт будет дополняться – пока это только альфа-версия.

Соответственно, русифицированный пример таблицы Excel для Data Mining Add-ins for Office 2007 можно скачать по адресу http://RussianDMAddins.codeplex.com.

Комментарии и дополнения приветствуются.

Результаты конференции «Платформа 2009»

Итак, 4 и 5 декабря 2008 года проходила конференция «Платформа 2009»… Признаться, подготовка к докладу «Обзор SQL Server Analysis Services 2008» отняла у меня много сил и времени, поэтому всю эту неделю я разгребал накопившиеся дела…

Конференция началась с продолжительного феерического шоу…

Платформа 2009 - феерическое шоу

Платформа 2009 — феерическое шоу

…которое плавно перешло в  пленарный доклад Марка Руссиновича (член технического совета корпорации Microsoft), посвященный ключевым технологиям и продуктам Microsoft.

Платформа 2009 - пленарный доклад Марка Руссиновича

Платформа 2009 — пленарный доклад Марка Руссиновича

В текущий момент на Платформе-Онлайн доступны (после регистрации на сайте) веб-трансляции докладов конференции. По теме Business Intelligence на сайте конференции доступны презентации и видео-записи следующих докладов:

  1. Войцеховский Максим. Microsoft Office PerformancePoint Server 2007 как единая платформа управления эффективностью бизнеса
  2. Еременко Алексей. Управление отчетностью: SQL Server Reporting Services, Microsoft Dynamics, Microsoft Office Excel 2007
  3. Ким Валерий. Бизнес-аналитика и моделирование в SQL Server 2010 Analysis Services
  4. Корепин Вадим, Колеров  Юрий. Microsoft Dynamics: Один день работы российского предприятия
  5. Косяков Иван. Обзор SQL Server Analysis Services 2008
  6. Шамгунов Никита. SQL Server 2008: полный контроль над информацией (часть доклада посвящена работе с геопространственными данными, что может найти применение в BI-решении)
  7. Шуленин Алексей. SQL Server 2008 единым взглядом (в докладе есть несколько слайдов и ссылок по теме BI)

Новые возможности аналитических сервисов в SQL Server 2008

На встрече группы я уже отвечал на вопрос по новым возможностям, но, тем не менее… Соответствующая информация доступна на странице Новые возможности SQL Server 2008, в частности, есть отдельные страницы по поводу многомерных баз данных и интеллектуального анализа данных.

Итак, в части многомерного анализа данных (Multi-Dimensional Analytics) это:

1. «Улучшения статистических схем» (новый конструктор агрегатов; упрощен и улучшен мастер статистических схем и мастер оптимизации с учетом использования; новые предупреждения объектов AMO)

2. «Улучшения в проектировании кубов» (мастер кубов)

3. «Улучшения конструктора измерений» (новый конструктор связей атрибутов; новые предупреждения объектов AMO; упрощенный и улучшенный мастер измерений; новое диалоговое окно «Ключевые столбцы»; поддержка ключевых столбцов в области свойств; обновлена вкладка «Структура измерений»)

4. «Улучшения резервного копирования и восстановления» (структур хранения и производительности)

5. «Модули персонализации служб Analysis Services»

Соответственно, в части интеллектуального анализа данных (Data Mining) улучшения следующие:

1. Создание моделей интеллектуального анализа:

  • «Фильтрация по вариантам модели» – добавлена возможность присоединения фильтров к моделям интеллектуального анализа данных.
  • «Расширения к алгоритму временных рядов (Майкрософт)» — с целью увеличения точности и стабильности некоторых прогнозов в моделях с временными рядами, к алгоритму временных рядов Майкрософт было добавлен новый алгоритм, построенный на основе хорошо известного алгоритма ARIMA и обеспечивающий лучшие долгосрочные прогнозы, чем ранее использовавшийся ARTxp.
  • «Детализация до структуры и столбцов структуры интеллектуального анализа данных», благодаря которой, например, можно получить контактную информацию для клиентов в определенном кластере.
  • «Создание псевдонимов для столбцов модели интеллектуального анализа данных» с целью облегчения понимания содержимого столбца и упрощения ссылок на столбцы в инструкциях расширений интеллектуального анализа данных.
  • «Запрос набора строк схемы интеллектуального анализа данных»

2. Проверка точности моделей интеллектуального анализа:

  • «Создание контрольных проверочных наборов» — при создании структуры интеллектуального анализа данных теперь можно автоматически разделить данные на обучающие и проверочные наборы. На мой взгляд, это самое существенное улучшение с точки зрения использования Business Intelligence Development Studio.
  • «Перекрестная проверка нескольких моделей интеллектуального анализа данных» – при осуществлении проверки данные структуры интеллектуального анализа данных автоматически многократно секционируются в подмножества, на базе подмножеств строятся модели, затем измеряется точность модели для каждой секции.

3. Функционал для конечных пользователей: реализована  «поддержка надстроек интеллектуального анализа данных для Office 2007» позволяет создавать и использовать модели интеллектуального анализа данных из Microsoft Excel.

4. Функции администрирования:

  • «Параллельная установка со службами SQL Server 2005 Analysis Services»
  • «Создание и восстановление резервных копий баз данных служб Analysis Services» — уменьшены ограничения на размер баз; сократилось время резервного копирования и восстановления.

Еще одно изменение: аналитические базы и демонстрационные примеры решений расположены по адресу http://www.codeplex.com/SqlServerSamples.

Сравнение выпусков SQL Server 2008 – Analysis Services

Начинаю публиковать ответы на вопросы, возникшие на встрече «Energy Event» сообщества Russian Business Intelligence.

Информация о возможностях, поддерживаемых различными выпусками SQL Server 2008, содержится на странице http://msdn.microsoft.com/ru-ru/library/cc645993.aspx. Различия Analysis Services нужно смотреть в подзаголовках «Многомерная аналитика» и «Интеллектуальный анализ данных». Если резюмировать, аналитические сервисы доступны в редакциях «Enterprise» и «Standard».

Итак, рассмотрим, каких функции есть в редакции «Enterprise», но нет в редакции «Standard».

С точки зрения многомерной аналитики (Multi-Dimensional Analytics) это:

1. «Финансовая статистическая обработка» (Financial aggregations)

2. «Секционированные заказчики» (Partitioned customers)

3. «Пользовательские свертки» (Custom rollups)

4. «Полуаддитивные меры» (Semi-additive measures) — возможность статистического вычисления мер вдоль некоторых, но не всех измерений, которые включены в группу мер, содержащую эту меру (подробнее).

5. «Измерения обратной записи» (Writeback dimensions) — возможность изменять содержимое измерения и сразу видеть результат этих изменений в иерархиях измерения (подробнее)

6. «Связанные меры и измерения» (Linked measures and dimensions) — возможность включения в куб измерений и групп мер из других кубов, которые могут находиться на том же или другом сервере (подробнее: связанные измерения и связанные группы мер).

7. «Двоичный и сжатый XML-транспорт» (Binary and compressed XML transport)

8. «Логика операций со счетами» (Account intelligence) — интеллектуальная обработка счетов в кубе или измерении с учетом стандартной классификации счетов, например «доходы» и «расходы», в элементах атрибута «счет», идентификация типов счетов (таких как «Актив» и «Долг») и назначение соответствующих статистических обработок каждому типу счета (подробнее)

9. «Перспективы» (Perspectives) — возможность создания упрощенных представлений существующих кубов, позволяющее пользователям сосредоточиться на наиболее значимых для них данных (подробнее)

10. «Общие масштабируемые базы данных служб Analysis Services» (Analysis Services shared, scalable databases)

С точки зрения интеллектуального анализа данных (Data Mining) это:

1. «Перекрестная проверка» (Cross validation) – возможность проверки надежности определенной модели интеллектуального анализа данных, проверки нескольких моделей в одной инструкции, построения нескольких моделей и определение лучшей из них на основе статистики (подробнее).

2. «Модели на фильтрованных подмножествах структур интеллектуального анализа данных» (Models on filtered subsets of mining structure data)

3. Улучшения в алгоритмы интеллектуального анализа данных:

  • «Временные ряды: пользовательское объединение моделей ARTXP и ARIMA» (Time series: custom blending between ARTXP and ARIMA models)
  • «Временные ряды: прогноз новых данных» (Time series: prediction with new data)
  • «Временные ряды: прогноз перекрестных рядов» (Time series: cross-series prediction)
  • «Прогнозирование последовательности» (Sequence prediction)
  • «Множественные цели прогнозирования для упрощенного алгоритма Байеса, нейронной сети и логистической регрессии» (Multiple prediction targets for naïve Bayes, neural network, and logistic regression)
  • «Неограниченное количество атрибутов для правил взаимосвязи» (Unlimited attributes for association rules)

4. «Неограниченные параллельные запросы интеллектуального анализа» (Unlimited concurrent datamining queries)

5. «Продвинутая настройка алгоритмов» (Advanced configuration and tuning for algorithms)

6. «API-интерфейс для подключаемых модулей алгоритмов» (Algorithm plug-in API)

7. «Параллельная обработка модели» (Parallel model processing)

Ссылки на видеозаписи докладов

На сайте SQL Server 2008 Experience некоторое время назад были опубликованы следующие краткие видеозаписи по теме BI с моим участием:

  1. SQL Server 2008 как Microsoft BI платформа
  2. Анализ скрытых закономерностей данных c помощью SQL Server 2008 Data Mining
  3. Обзор SQL Server 2008 Analysis Services
  4. Что такое Data Mining в SQL Server 2008

Материалы встреч RuBI.ineta.ru в связи с переездом блога на площадку wordpress.com

В связи с переездом блога под управление wordpress.com заново публикую мои презентации докладов со встреч Russian Business Intelligence User Group (http://rubi.ineta.ru).

19.07.2008. «Data Mining с использованием Microsoft SQL Server 2008» (скачать в формате PowerPoint 2007 или скачать в формате PowerPoint 2003).

22.03.2008. «Microsoft BI и потребности бизнеса» (скачать в формате PowerPoint 2007 или скачать в формате PowerPoint 2003).

Опубликовать презентации докладов «Разработка решений многомерного анализа данных» и «Разработка решений с использованием технологии Data Mining» с события «SQL Server Energy Event», проходившего 05.11.2008, пока не могу – жду подтверждения от компании Microsoft.