Лабораторные работы по BI и SQL Server 2016

https://www.microsoft.com/en-us/cloud-platform/virtual-labs

Визуализация данных на мобильных устройствах и ПК

В последнее время по теме визуализации данных на мобильных устройствах (планшетах и смартфонах) в платформе Microsoft BI появилось множество новых компонентов. При этом архитектура решения значительно усложнилась. В связи с этим считаю нужным прояснить на каких устройствах какие компоненты и на базе каких источников можно использовать.

Актуальная архитектура аналитического решения приведена на следующем рисунке. В левой части показаны аналитические модели (табличная и многомерная), которые рекомендуется использовать в качестве единого источника правды с расчетными показателями. В правой части рисунка показаны доступные компоненты для визуализации данных.

architecture

Для визуализации данных можно использовать три компонента:

  • Информационные панели и отчеты Power BI;
  • Отчеты и информационные панели SharePoint Insights;
  • Портал и приложения Datazen для планшетов и смартфонов.

Информационные панели и отчеты Power BI

С помощью облачного сервиса Power BI можно настроить аналитический портал с отчетами, позволяющий в том числе отображать данные из табличных аналитических моделей через Analysis Services коннектор. Таким образом, данные организации хранятся на собственных серверах, а в облаке содержится только описание структуры отчетов.

power-bi-arch

Создавать отчеты Power BI можно либо непосредственно с портала (через веб-браузер), либо с помощью специального приложения Power BI для Windows (развитие технологии PowerPivot для Excel).

На портале создаются интерактивные отчеты (развитие технологии Power View) и построенные на их основе информационные панели. Информационные панели составляются из фрагментов интерактивных отчетов. С каждого фрагмента информационной панели можно перейти на соответствующий интерактивный отчет (развитие технологии Power View).

Данные отчеты можно просматривать либо с помощью веб-браузера, либо с помощью специальных приложений для iOS, Android, Windows.

power-bi-devices

Бизнес-аналитика SharePoint для мобильных устройств

В SharePoint 2013 (в комбинации с SQL Server 2012 SP1 и старше) поддерживаются практически все инструменты визуализации с мобильных устройств iOS, Android и многих других.

Устройства Windows, естественно, поддерживают все существующие возможности). Поэтому ниже мы будем говорить об устройствах других производителей.

Относительно поддержки стандартных инструментов визуализации на устройствах iOS, Android и т.д.:

  • PerformancePoint Services — поддерживается все кроме дерева декомпозиции (Silverlight);
  • Reporting Services в интегрированном режиме SharePoint – работает все, но есть ограничение на использование фильтра по дате (календарь);
  • Excel Services — поддерживается все;
  • PowerPivot для SharePoint – поддерживается все кроме галереи отчетов PowerPivot;
  • Visio Services – поддерживается все, включая комментирование, аннотирование и совместное редактирование.

Для работы с устройствами малого размера (мобильными телефонами) в SharePoint 2013 есть возможность создания альтернативных шаблонов мастер-страницы.

Отчеты Datazen для мобильных устройств

Отчеты Datazen предназначены для мобильных устройств. Для обеспечения работы отчетов в ЦОД организации разворачивается Datazen Enterprise Server.

datazen-arch

Для создания отчетов Datazen служит приложение Publisher App для Windows. При этом для каждого отчета можно создать отдельные раскладки для отображения на мобильном телефоне, планшете и персональном компьютере.

Просмотр отчетов Datazen возможен на приложениях для различных мобильных платформ, а также через веб-браузер.

datazen-devices

Подробнее об инструментах Power BI и Datazen я расскажу в ближайшее время.

Оценка заданий «Хакатона» по Azure ML

По многочисленным просьбам выкладываю итоговую таблицу оценки выступлений команд и точности сформированных моделей предсказательной аналитики, сформированных командами в ходе конференции Hackathon 2015 ML. Состав жюри по Azure ML: Андрей Зимовнов (Озон), Вадим Челышков (Майкрософт), Иван Косяков (Майкрософт).

hakathon-results

Расчет RSME по заданиям 2 и 3 производился с помощью Azure ML на основании наборов данных, полученных от команд через Blob Storage.

evaluation experiment

Прилагаю также таблицу Excel с моими комментариями.

Всем командам спасибо за участие! Готовимся к следующей конференции. Любые дополнения, комментарии и идеи по следующим конференциям приветствуются…

attendees-medium

 

 

Критерии оценки задачи по визуализации на Hackathone 2015

Оценка по данной номинации субъективна и складывается из экспертного мнения и опыта членов жюри!!!

Факторы, которые влияют на оценку:

  1. Полнота и релевантность представленной информации
  2. Простота визуального восприятия – оптимальный выбор и расположение визуальных компонентов на дэшборде.
  3. Полнота использованного функционала продуктов Microsoft
  4. Креативность и логичность сценария демонстрации.

Задание по Azure ML для участников конференции Хакатон 2015

Необходимо решить всего две задачи: первую — обязательно, и одну из задач (вторую или третью) — на выбор. Если получится сделать три задачи еще лучше!

Вопросы к заданию и отзывы по функциональности Azure ML можно также писать в этом блоге (в комментариях).

Параметры подключения к данным

Параметры подключения к данным заданий для конференции Hackathon 2015 ML приведены ниже. Это Blob Storage, к которому можно обратиться через Reader в рамках эксперимента Azure ML.

STORAGE ACCOUNT NAME: hackathon2015ml

PRIMARY ACCESS KEY (нужно объединить символы в одну строку):

ZD/Ad7agUVGkYay2hoLE6saxvJGum8hAmWj42QKh87sOz 8VGMwpXR4bdyZR842lsijFjCPfnrzq55DarQ/VMZw==

Задание 1. Предсказание выплат по авариям

Предсказать маленькая или большая сумма выплаты при попадания водителя в аварию (исходя из имеющейся информации: штрафы, марки авто). Прогнозируем значение колонки «Возмещено» (1 — мало выплат по авариям, 2 — много выплат по авариям). Модель должна предсказывать значение поля «Возмещено» для всех строк набора данных.

Исходные файлы:

  • 5wheel/auto-insurance-train.csv (для обучения модели)
  • 5wheel/auto-insurance-task.csv (проверочный набор при оценке модели — для информации)

Замечание. В первый набор данных искусственно внесли зависимости, так как для решения реальной задачи в исходном наборе данных было недостаточно информации. Цель первого задания — оценить стандатные средства Azure ML для обнаружения сильных зависимостей в простом наборе данных.

Для участников с продвинутой моделью подготовили дополнительный набор данных (без внесенной зависимости). Если интересно, можете попробовать свою модель на данном наборе: 5wheel/auto-insurance-2-… Если есть значимый результат, высылайте и этот график.

Критерий оценки: точность предсказания на проверочном наборе данных (…-task) при сопоставлении с реальным значением прогнозируемой колонки «Возмещено». Первичный критерий — максимизация значения показателя AUC. Вторичный критерий — плавность графика ROC.

evaluate

Публикация результатов задания 1 для оценки жюри: выслать снимок экрана с графиком ROC и значением AUC на следующие Live ID: Ivan.Kosyakov@live.com, Yuri.A.Popov@hotmail.com, prootq@xakep.ru, AAChizhova@gmail.com. Графический файл необходимо назвать «Auto Insurance Trained Model ##«, где ## — номер команды.

При формировании графика нужно использовать файл 5wheel/auto-insurance-check.csv.

Наиболее точную модель потом отдельно посмотрим — как она настроена в Azure ML.

evaluate-viz

Задание 2. Товары по поисковым запросам

По тексту поискового запроса, названию товара, описанию товара предсказать наиболее релевантный порядок отображения результатов поиска (товары, на которые пользователь кликнет с большей вероятностью). Предсказать нужно колонку «Clicks». Предсказывать в виде диапазонов или конкретных значений — на ваше усмотрение. То есть товар могут купить на любом уровне иерархии (он может попасть в любую категорию).

Критерий оценки: первый приоритет — значение показателя RMSE; второй приоритет — качество обоснования и реализации модели.

Исходные файлы:

  • ozon/ozon-search-rus-train.csv
  • ozon/ozon-search-rus-task.csv (проверочный набор данных для оценки точности модели)

Публикация результатов задания 2 для оценки жюри: необходимо выслать параметры доступа к набору данных с предсказанием на следующие адреса: Ivan.Kosyakov@live.com, Yuri.A.Popov@hotmail.com, prootq@xakep.ru, AAChizhova@gmail.com. Имя файла: ozon/ozon-search-rus-task-##.csv, где ## — номер команды.

Задание 3. Прогнозирование спроса на товары

Необходимо по истории за 5 недель предсказать сколько будет куплено товаров через неделю за неделю. Каждый товар лежит в нескольких каталогах, ID товаров и каталогов хэшированы. Набор данных собран в день расчета прогноза. Будем называть его сегодняшним днем.

  • pv_last_1w — (product views) просмотры товара за прошедшую неделю [today — 7, today]
  • pv_last_2w — просмотры товара за прошедшие 2 недели [today — 14, today]
  • ca_last_1w — (cart additions) добавления товара в корзину за прошедшую неделю [today — 7, today]

Предсказать необходимо колонку ca_future_1w_after_1w — сколько товаров положили в корзину через неделю от сегодняшнего дня на протяжении недели, т.е. покупки за период [today + 7, today + 14]. Прогнозирование с запаздыванием из-за задержки поставщиков в 7 дней. Проверять предсказание модели будем по набору данных с другими товарами. Есть предположение, что категория товара при этом может повлиять на тенденцию приобретения клиенами.

Критерий оценки: первый приоритет — значение показателя RMSE; второй приоритет — качество обоснования и реализации модели.

Исходные наборы данных:

  • ozon/ozon-demand-train.csv (для обучения модели)
  • ozon/ozon-demand-task.csv (проверочный набор данных для оценки точности модели)

Комментарий по наборам данных Наборы данных …-test — для обучения вашей модели. На наборах …-task будет тестироваться качество работы алгоритма.

Публикация результатов задания 3 для оценки жюри: необходимо выслать параметры доступа к набору данных с предсказанием на следующие адреса: Ivan.Kosyakov@live.com, Yuri.A.Popov@hotmail.com, prootq@xakep.ru, AAChizhova@gmail.com. Имя файла: ozon/ozon-demand-task-##.csv, где ## — номер команды.

Как подключать набор данных?

На портале http://portal.windowsazure.com подклаемся под своим live ID (связанным предварительно с подпиской). В левой части выбираем Azure Machine Learning (символ пробирки), подключаемся в Azure ML Studio. В Azure ML Studio создать новый эксперимент. В эксперименте из панели инструментов слева перетащить Reader, и в нем настроить параметры подключения к файлу.

reader

Полезные ссылки:

Визуализация транспортных потоков с помощью Power Map

Технология Power Map в Excel для визуализации трехмерных карт существует уже достаточно давно. Но только сегодня я натолкнулся на отличный пример визуализации транспортных потоков на примере железнодорожных перевозок (автор — Heidi Enho).

Предлагаю вам за две минуты просмотра видео-ролика получить представление о прибытии поездов в финской железнодорожной системе.

Приведенный пример является замечательной альтернотивой визуализации нескольких слоев данных на карте, если не требуется ее отображение на портале организации. В противном случае можно использовать такие решения как IDV Solutions Visual Fusion или ArcGis.

Azure Machine Learning как развитие технологий интеллектуального анализа данных

Последнее обновление: 09.12.2015

Мы долго ждали развития технологии интеллектуального анализа данных (SSAS Data Mining) и наконец то дождались! 18 февраля 2015 года на конференции «Strata + Hadoop World» было объявлено о доступности официальной версии технологии Azure ML (Machine Learning). В контексте объявленной там же доступности технологии Storm на базе HDInsight это говорит о продолжении активного инвестирования компанией Майкрософт в технологии извлечения знаний из «больших данных».

С использованием Azure ML разработчики и аналитики могут в сжатые сроки построить и внедрить решения для улучшения сервиса для клиентов, предсказания и предотвращения сбоев оборудования, повышения операционной эффективности, предотвращения мошенничества и решения огромного количества других задач.

В дополнение к стандартным алгоритмам, можно использовать Machine Learning Marketplace для поиска программных интерфейсов (API) и готовых сервисов, таких как движок рекомендаций, обнаружение аномалий и прогнозирование, с целью повышения скорости внедрения.

Преимущества Azure ML:

  1. Уменьшение сложности использования: доступность через веб-браузер, наличие среды совместной работы Azure workspace; решение строится в виде графа компонентов; используются лучшие алгоритмы, возможности расширения и поддержки R OSS.
  2. Ускоренное построение экспериментов для создания наилучших моделей: возможности поиска и повторного использования моделей; возможность быстро и одновременно использовать различные алгоритмы машинного обучения и стратегии моделирования.

Как начать работать с Azure ML?

Чтобы быстро начать использовать Azure ML вы можете использовать большое количество готовых примеров экспериментов, подготовленных в Майкрософт. samples Можно также использовать примеры из галереи экспериментов, которая пополняется не только силами Майкрософт, но и участниками сообщества. Примеры экспериментов из галереи также можно публиковать через Twitter и LinkedIn. gallery2 gallery

Процесс работы с Azure ML

Работа с Azure ML состоит из следующих шагов. logic При доступе к данным в качестве источников данных могут использоваться текстовые файлы (CSV, TSV и с другими разделителями), файлы HDFS, таблицы Hive из Hadoop, таблицы SQL Azure, объекты и таблицы в Azure, потоки данных OData и JSON, веб-страницы

Для изучения данных можно использовать набор модулей для извлечения примеров данных (случайные, Top-N, диапазоны, расслоения), модули статистического анализа данных (распределение, корреляция, тестирование гипотез), а также очень полезна возможность визуализации наборов данных.

Для создания и выбора признаков можно использовать блоки масштабирования и функциональные преобразования, группировка цифровых характеристик, двоичное кодирование категориальных функций, выделение признаков с помощью скриптового языка R, выбор компонентов с использованием фильтров (корреляция, частота, взаимная информация, хи-квадрат) и упаковщиков (пошаговый выбор характеристик).

При разработке модели используются алгоритмы классификации (Boosted Decision Trees, Random Forests, Logistic Regression, SVM, Averaged Perceptron, Neural networks), регрессии (Linear Regression, Boosted Decision Trees, Neural networks), рекомендаций (SVD, Non-negative matrix factorization) и кластеризации (K-means). Новый алгоритм «Learning with Counts», позволяет извлекать знания из терабайт информации путем решения задач классификации и регрессии с использованием нейронных сетей и деревьев принятия решений (boosted decision trees). Алгоритмы машинного обучения в Azure ML автоматически масштабируются в HDInsight для Azure в зависимости от обрабатываемых объемов данных. В частности, можно использовать очень мощный статистический скриптовый пакет R, который использует инфраструктуру Hadoop (HDInsight), и язык программирования Python.

Для экспериментирования и оценки работы алгоритмов можно применять несколько методов разделения набора данных (случайное, диапазонное, расслоением), поддерживается «K-fold» кросс-валидация, операционные метрики (Confusion matrix, Precision/Recall, True/False positives/negatives и т.д.) и глобальные метрики (ROC, AUC, Lift chart, RMSE, r-squared и т.д.) experiment Исследователи данных могут публиковать готовые в веб-сервисе Azure ML для последующего потребления пользователями организаций. Преимущества использования веб-сервисе Azure ML:

  • может автоматически масштабироваться в ответ на объемы использования (это позволяет экономить аппаратные ресурсы);
  • его можно использовать как в пакетном, так и в интерактивном режиме;
  • активно отслеживает изменения используемых моделей;
  • есть функции телеметрии (отслеживания качества работы используемых алгоритмов) и управления моделями (возврат произведенных изменений, повторная тренировка моделей).

Открытый программный интерфейс (API) позволяет обновлять модели Azure ML непосредственно из приложений. Это актуально для автоматического переобучения модели при появлении новых данных, что может улучшить качество ее работы.

Демонстрация

В этой демонстрации мы будем использовать Azure ML для автоматической генерации рекомендаций для клиентов магазина розничной торговли.

Надстройка Azure ML для Excel

Надстройка доступна из меню Excel «Insert — My Add-int — See all…», позволяет подключить опубликованный в виде веб-сервиса эксперимент и делать предсказания на базе наборов данных в Excel.

excel-addin

Заключение

Azure ML гибко встраивается в решения на базе платформы данных Майкрософт в «облачном» или гибридном варианте размещения. В качестве источников данных могут использоваться «облачные» HDInsight, SQL Server (виртуальные машины или база данных), Document DB, Blob-файлы и таблицы, данные из которых можно готовить в нужный формат с помощью Data Factory. Локальные ресурсы (текстовые файлы, таблицы Excel и т.д.) можно хранить в пространстве хранения (Storage Space). Эксперименты машинного обучения готовятся в Azure ML Workspace и публикуются в течение минут в Azure Portal. Далее с использованием портальных решений, таких как Office 365 и Power BI, и приложений результаты анализа можно отображать на различных устройствах.

architecture

Примеры внедрений Azure ML (18 февраля 2015 года): Pier 1, Carnegie Mellon, eSmart Systems, Mendeley и ThyssenKrupp.

Информационные ресурсы по Azure ML:

  1. Документация по Azure ML
  2. Microsoft Azure. Машинное обучение
  3. Machine Learning Blog
  4. Голосование на новые функции Azure ML (страница команды разработки Azure ML, где можно повлиять на приоритеты новых разрабатываемых функций)

Книги

  1. Microsoft Azure Essentials: Azure Machine Learning
  2. Data Science in the Cloud with Azure ML and R

Дополнительные материалы по Azure ML:

  1. Создание простого эксперимента в Azure Machine Learning Studio
  2. Анализ оттока клиентов с помощью машинного обучения Microsoft Azure
  3. New Azure services help more people realize the possibilities of big data
  4. Announcing the General Availability of Azure Machine Learning
  5. Azure Machine Learning Frequently Asked Questions (FAQ)
  6. Microsoft Azure Machine Learning Algorithm Cheat Sheet
  7. Блог Сергея Мастицкого. R: Анализ и визуализация данных 
  8. MSDN: статья Дмитрия Петухова Azure Machine Learning для Data Scientist
  9. MSDN: статья Алексея Романова Анализ тональности текста с помощью Azure Machine Learning
  10. Неизвестный автор: Обработка русских текстов в Azure ML на языках Python и R
  11. 100 лучших видео (вебкастов) про Azure ML
  12. Execute Python machine learning scripts in Azure Machine Learning Studio

Дополнительные компоненты Azure ML:

  1. Azure Machine Learning Excel Add-In

Анализ макроэкономических показателей

В этой демонстрации мы рассмотрим пример анализа ряда макроэкономических показателей некоторых стран на территории бывшего СССР.

Данные для анализа загружены с сайта Всемирного банка средствами надстройки Power Query для Excel. Визуализация сформирована с помощью Power View для Excel. Также показаны возможности размещения таких отчетов на портале Office 365 и внесения изменения в эти отчеты с мобильных устройств.

Скачать файл Excel с набором данных и отчетом можно с сайта проекта Public-intelligence.ru: http://public-intelligence.ru/models

Анализ затрат организаций с помощью Power View для Excel и Office 365

Анализ и оптимизация затрат является актуальной задачей финансовых подразделений организаций.

В первой демонстрации показано как аналитик финансового отдела на основании набора данных, полученного из финансовой системы, может самостоятельно сформировать интерактивные панели для анализа затрат. На основании сформированных диаграмм аналитик может выявить направления с наибольшим отклонением фактических затрат от плановых (сформированных в ходе процесса бюджетирования).

Итак, в нашем примере аналитик выявил наиболее критичное отклонение от плана — это затраты на поездки.

Во второй демонстрации аналитик анализирует затраты на авиа-перелеты с целью выявления способов уменьшения их стоимости.

См. также: Визуализация и анализ затрат на электроэнергию

Создание кластера Hadoop в Azure (HDInsight)

Публикую короткую демонстрацию, в которой показано, как можно быстро (за 10-20 минут) создать линейно-масштабируемый кластер Hadoop (из 4 и более узлов) в Azure для последующей обработки полу-структурированных данных.