Команда разработки Gemini анонсировала предварительный релиз Gemini (Self-Service Business Intelligence (BI) в составе августовского предварительного просмотра SQL Server 2008 R2).
Сейчас еще можно участвовать в Gemini CTP, даже если вы не являетесь участником Office 2010 Tech Preview. Для этого зайдите по ссылке на Microsoft Connect, зарегистрируйтесь, заполните анкету номинанта. Если останутся места участника предварительного просмотра, и анкета удовлетворит условиям отбора, информация по загрузке CTP будет выслана по почте.
Команда разработки SQL Server анонсировала августовский технологический просмотр сообществом (CTP — Community Technology Preview) SQL Server 2008 R2.
SQL Server 2008 R2 – это новая версия платформы баз данных Microsoft SQL Server, запланированная к выпуску в первой половине 2010 года.
После загрузки CTP вы можете:
исследовать расширенные возможности управления базами данных в SQL Server Management Studio;
ознакомиться с новой комплексной технологией обработки событий под названием «SQL Server StreamInsight»;
запустить SQL Server на более чем 64 процессорных ядрах;
отправить ранний отзыв команде разработки.
Загрузка версии для подписчиков TechNet/MSDN доступна с 10 августа, и для всех желающих – с 12 августа. Загрузить версию можно с официальной страницы релиза.
Профессиональная ассоциация SQL Server (PASS) открыла регистрацию на бесплатный онлайновый семинар для технологического сообщества «24 часа PASS» («24 Hours of PASS»). Семинар ведут лучшие в истории лекторы по теме SQL Server и Business Intelligence (BI). В программе семинара:
использование имеющихся возможностей SQL Server;
детальное освещение актуальных тем про SQL Server и BI, включая производительность SQLCLR, проектирования реляционных баз данных, улучшение производительности (включая способы диагностики), безопасность SQL Server 2008, использование Reporting Services в приложениях, советы по использованию SSIS, работа с пространственными данными, интеллектуальный анализ текста (text mining), хранилища данных и другое.
Вы также сможете задать свои собственные вопросы в онлайне.
Список докладов:
Session 01 (Dev) — 10 Big Ideas in Database Design (Paul Nielsen / Louis Davidson)
Session 02 (DBA) — Using Powershell to Get the Most Out of SQL Server (Allen White)
Session 03 (PD) — Team Management Fundamentals (Kevin Kline)
Session 04 (BI) — Delivering Good Performance Consistently with SSIS (John Welch)
Session 05 (DBA) — Using SQLdiag to Troubleshoot SQL Server Problems (Brad McGehee)
Session 06 (DBA) — The SQL Server 2008 Vanishing Act (Peter Ward)
Session 07 (BI) — Text Mining (Dejan Sarka)
Session 08 (Dev) — Tips and Tricks for Writing SET Based Queries (Jacob Sebastian)
Session 09 (DBA) — Implementing a Bullet proof Backup Strategy for Mirrored Databases (Thomas Grohser)
Session 10 (Dev) — Working with Spatial Data in SQL Server 2008 (Greg Low)
Session 11 (DBA) — Effective Indexing (Gail Shaw)
Session 12 (BI) — Reporting Services Inside Out the Things You Should Know (Simon Sabin)
Периодически мне задают вопросы по технологии Data Mining в Microsoft SQL Server Analysis Services, в частности, что это за технология Data Mining, какие алгоритмы реализованы в решении Microsoft, в чем особенности решения, какие есть возможности расширения. В связи с этим решил написать в своем блоге небольшую заметку на эту тему.
Итак, Data Mining («добыча данных», англ.) – это технологии анализа больших объемов данных для обнаружения (очень сильно) скрытых закономерностей. Это достаточно молодая технология (возраст менее 20 лет), но эффективные алгоритмы были разработаны в результате исследования баз данных, хотя использует комбинацию давно известных методов статистики и теории вероятности.
Наиболее типичные примеры использования технологии Data Mining:
поиск прибыльных клиентов;
понимание потребностей пользователей;
упреждение смены клиентов;
предсказание продаж;
построение эффективных маркетинговых кампаний;
обнаружение и предотвращение мошенничества;
исправление данных в процессе ETL.
Процесс интеллектуального анализа данных состоит из следующих шагов.
1. Создаем модель добычи данных с использованием определенного алгоритма, настроенная на некоторую входную выборку данных.
2. С помощью некоторых тренировочных данных (в которых известны как исходные атрибуты, так и те атрибуты, которые мы собираемся предсказывать в будущем) производим обучение модели добычи данных.
3. После обучения на вход модели добычи данных можно подавать предсказываемые данные (в которых неизвестны интересующие нас атрибуты, значение которых мы собираемся предсказать); в результате работы алгоритма будут с определенной вероятностью предсказаны неизвестные атрибуты.
Создание модели добычи данных может производиться с использованием инструментов: Business Intelligence Development Studio, Microsoft Excel, Microsoft Visio, SQL Server Management Studio. SQL Server поддерживает построение моделей добычи данных как на реляционных, так и на OLAP-источниках данных.
Использование (отображение) результатов работы моделей добычи данных может производиться с использованием Microsoft Excel, Microsoft Visio, SQL Server Reporting Services или разрабатываемого вами приложения (через средства OLE DB, ADOMD, XMLA, AMO).
Модель добычи данных может использовать для решения одной задачи различные альтернативные алгоритмы.
В SQL Server 2008 (Enterprise Edition) содержатся следующие алгоритмы интеллектуального анализа данных:
Примеры интеллектуального анализа данных можно посмотреть в записи следующего доклада.
Компоненты интеллектуального анализа данных SQL Server 2005/2008 содержат множество программных интерфейсов (API), которые можно использовать для включения функций интеллектуального анализа данных в приложения.
Из управляемого кода .NET можно использовать:
AMO (Analysis Management Objects);
ADOMD.NET (для клиентских приложений);
ADOMD Server (для хранимых процедур на уровне сервера).
Из родного кода C++ можно использовать «OLE DB for Data Mining».
Для работы с Data Mining через Интернет можно использовать интерфейсы ASP.NET, .NET и XML для анализа (XMLA) напрямую через HTTP.
В собственных приложениях вы также можете использовать стандартные средства отображения моделей интеллектуального анализа данных (Data Mining Viewers), которые используются в Business Intelligence Development Studio и SQL Management Studio. Соответствующие управляющие элементы можно загрузить по этой ссылке.
Аналитические сервисы SQL Server 2005 Analysis Services имеют родной доступ ко всем объектам с использованием веб-сервисов через XML для анализа (XMLA). Таким образом, любая модель добычи данных может быть реализована в виде веб-сервиса.
Поддержка XML для анализа (XMLA) в SQL Server Data Mining позволяет получать доступ к своим функциям через SOAP-протоколы от клиентов, построенных не на платформе Windows.
В SQL Server 2005/2008 можно подключать собственные алгоритмы и средства визуализации для собственных или стандартных (встроенных) алгоритмов.
На сайте Microsoft доступно описание подключения алгоритмов интеллектуального анализа данных, а на сервере sqlserverdatamining.com – руководство с примерами кода.
Интеллектуальный анализ текста (Text mining) производится в два шага.
Сначала необходимо использовать трансформации интеллектуального анализа текста (Term Extraction and Term Lookup) в Integration Services для построения словаря и извлечения ключевых слов и фраз из исходных текстовых данных в реляционные таблицы.
Вторым шагом необходимо применить алгоритмы интеллектуального анализа данных в Analysis Services непосредственно для анализа полученных данных.
Полное описание процесса интеллектуального анализа текста находится на ресурсе SQLServerDataMining.com.
Онлайн-примеры DM находятся на ресурсе SQLServerDataMining.com, наполнением которого занимается команда разработки SQL Server Data Mining. Примеры доступны в разделе Live!Samples, а код примеров можно скачать в разделе Downloads.
Примеры проектов на сайте Codeplex: Microsoft SSAS Samples (OLAP, Data Mining, Administration)