Давайте рассмотрим сценарий продвинутой аналитики, демонстрирующий как авто-дилеры, страховые компании и производители автомобилей могут использовать Cortana Analytics Suite включая Power BI в решении для получения аналитики реального времени и предсказаний работоспособности автомобилей и поведенческих шаблонов при вождении для улучшения качества езды, улучшения автомобилей и маркетинговых компаний.
Архитектура решения приведена на следующем рисунке:
Потоковые данные с датчиков автомобиля по сети Интернет поступают в Event Hub. Далее они поступают на вход Azure Stream Analytics (ASA).
В ASA настроены три постоянных запроса над входным потоком данных, каждый из которых обогащаются информацией о параметрах автомобилей из каталога автомобилей, хранящегося в Azure Blob Storage:
Запрос №1 содержит данные по каждому автомобилю для отражения в реальном времени в Power BI.
Запрос №2 отправляет данные по автомобилям в хранилище Blob Storage (это «большие данные» с точки зрения объемов информации; такие объемы выгодно хранить в Azure Blog Storage, т.к. в этом случае стоимость хранения минимальна).
Запрос №3 агрегирует информацию по каждой модели и городу для сохранения в реляционном хранилище Azure DW для последующего отражение исторической отчетности.
Компонент решения Azure Data Factory выполняет интеграционную задачу. На основании файла, сгенерированного в ходе выполнения запроса №2 в ASA, в Blob Storage формируются три таблицы с выделением сведений об эффективности использования горючего, об агрессивности вождения и о возможных аномалиях.
За формирование этих дополнительных таблиц отвечают скрипты Hive, в которых задается структура таблиц над CSV-файлами, а затем выполняется агрегирование информации с помощью INSERT-запросов.
Выборка данных об аномалиях направляется в сервис Azure Machine Learning, где формируется прогноз по возможному выходу автомобилей из строя. Благодаря этому прогнозу можно проактивно заказывать требуемые компоненты на замену и выполнять техническое обслуживание автомобилей (это сводит к минимуму простои оборудования).
Пример пакета по выбору и обучению модели для обнаружения аномалий приведен на следующем снимке экрана.
Далее информация из файлов в Blob Storage направляется в хранилище Azure Data Warehouse и отражается на информационных панелях Power BI. Другая часть данные поступает напрямую из ASA и отражается в Power BI в «реальном времени».
Используемые в сценарии технологии: Event Hub, Azure Stream Analytics, Azure Machine Learning, Azure Data Factory, HDInsight, Azure Storage, Azure DW, и Power BI.
Технология Power Map в Excel для визуализации трехмерных карт существует уже достаточно давно. Но только сегодня я натолкнулся на отличный пример визуализации транспортных потоков на примере железнодорожных перевозок (автор — Heidi Enho).
Предлагаю вам за две минуты просмотра видео-ролика получить представление о прибытии поездов в финской железнодорожной системе.
Приведенный пример является замечательной альтернотивой визуализации нескольких слоев данных на карте, если не требуется ее отображение на портале организации. В противном случае можно использовать такие решения как IDV Solutions Visual Fusion или ArcGis.
Мы долго ждали развития технологии интеллектуального анализа данных (SSAS Data Mining) и наконец то дождались! 18 февраля 2015 года на конференции «Strata + Hadoop World» было объявлено о доступности официальной версии технологии AzureML(Machine Learning). В контексте объявленной там же доступности технологии Storm на базе HDInsight это говорит о продолжении активного инвестирования компанией Майкрософт в технологии извлечения знаний из «больших данных».
С использованием AzureML разработчики и аналитики могут в сжатые сроки построить и внедрить решения для улучшения сервиса для клиентов, предсказания и предотвращения сбоев оборудования, повышения операционной эффективности, предотвращения мошенничества и решения огромного количества других задач.
В дополнение к стандартным алгоритмам, можно использовать Machine Learning Marketplace для поиска программных интерфейсов (API) и готовых сервисов, таких как движок рекомендаций, обнаружение аномалий и прогнозирование, с целью повышения скорости внедрения.
Преимущества AzureML:
Уменьшение сложности использования: доступность через веб-браузер, наличие среды совместной работы Azure workspace; решение строится в виде графа компонентов; используются лучшие алгоритмы, возможности расширения и поддержки R OSS.
Ускоренное построение экспериментов для создания наилучших моделей: возможности поиска и повторного использования моделей; возможность быстро и одновременно использовать различные алгоритмы машинного обучения и стратегии моделирования.
Как начать работать с Azure ML?
Чтобы быстро начать использовать Azure ML вы можете использовать большое количество готовых примеров экспериментов, подготовленных в Майкрософт. Можно также использовать примеры из галереи экспериментов, которая пополняется не только силами Майкрософт, но и участниками сообщества. Примеры экспериментов из галереи также можно публиковать через Twitter и LinkedIn.
Процесс работы с Azure ML
Работа с Azure ML состоит из следующих шагов. При доступе к данным в качестве источников данных могут использоваться текстовые файлы (CSV, TSV и с другими разделителями), файлы HDFS, таблицы Hive из Hadoop, таблицы SQL Azure, объекты и таблицы в Azure, потоки данных OData и JSON, веб-страницы
Для изучения данных можно использовать набор модулей для извлечения примеров данных (случайные, Top-N, диапазоны, расслоения), модули статистического анализа данных (распределение, корреляция, тестирование гипотез), а также очень полезна возможность визуализации наборов данных.
Для создания и выбора признаков можно использовать блоки масштабирования и функциональные преобразования, группировка цифровых характеристик, двоичное кодирование категориальных функций, выделение признаков с помощью скриптового языка R, выбор компонентов с использованием фильтров (корреляция, частота, взаимная информация, хи-квадрат) и упаковщиков (пошаговый выбор характеристик).
При разработкемодели используются алгоритмы классификации (Boosted Decision Trees, Random Forests, Logistic Regression, SVM, Averaged Perceptron, Neural networks), регрессии (Linear Regression, Boosted Decision Trees, Neural networks), рекомендаций (SVD, Non-negative matrix factorization) и кластеризации (K-means). Новый алгоритм «LearningwithCounts», позволяет извлекать знания из терабайт информации путем решения задач классификации и регрессии с использованием нейронных сетей и деревьев принятия решений (boosted decision trees). Алгоритмы машинного обучения в Azure ML автоматически масштабируются в HDInsight для Azure в зависимости от обрабатываемых объемов данных. В частности, можно использовать очень мощный статистический скриптовый пакет R, который использует инфраструктуру Hadoop (HDInsight), и язык программирования Python.
Для экспериментирования и оценки работы алгоритмов можно применять несколько методов разделения набора данных (случайное, диапазонное, расслоением), поддерживается «K-fold» кросс-валидация, операционные метрики (Confusion matrix, Precision/Recall, True/False positives/negatives и т.д.) и глобальные метрики (ROC, AUC, Lift chart, RMSE, r-squared и т.д.) Исследователи данных могут публиковать готовые в веб-сервисеAzureML для последующего потребления пользователями организаций. Преимущества использования веб-сервисеAzureML:
может автоматически масштабироваться в ответ на объемы использования (это позволяет экономить аппаратные ресурсы);
его можно использовать как в пакетном, так и в интерактивном режиме;
активно отслеживает изменения используемых моделей;
есть функции телеметрии (отслеживания качества работы используемых алгоритмов) и управления моделями (возврат произведенных изменений, повторная тренировка моделей).
Открытый программный интерфейс (API) позволяет обновлять модели Azure ML непосредственно из приложений. Это актуально для автоматического переобучения модели при появлении новых данных, что может улучшить качество ее работы.
Демонстрация
В этой демонстрации мы будем использовать Azure ML для автоматической генерации рекомендаций для клиентов магазина розничной торговли.
Надстройка Azure ML для Excel
Надстройка доступна из меню Excel «Insert — My Add-int — See all…», позволяет подключить опубликованный в виде веб-сервиса эксперимент и делать предсказания на базе наборов данных в Excel.
Заключение
AzureML гибко встраивается в решения на базе платформы данных Майкрософт в «облачном» или гибридном варианте размещения. В качестве источников данных могут использоваться «облачные» HDInsight, SQL Server (виртуальные машины или база данных), Document DB, Blob-файлы и таблицы, данные из которых можно готовить в нужный формат с помощью Data Factory. Локальные ресурсы (текстовые файлы, таблицы Excel и т.д.) можно хранить в пространстве хранения (Storage Space). Эксперименты машинного обучения готовятся в Azure ML Workspace и публикуются в течение минут в Azure Portal. Далее с использованием портальных решений, таких как Office 365 и Power BI, и приложений результаты анализа можно отображать на различных устройствах.
Примеры внедрений AzureML (18 февраля 2015 года): Pier 1, Carnegie Mellon, eSmart Systems, Mendeley и ThyssenKrupp.
Информационные ресурсы по AzureML:
Документация по Azure ML
Microsoft Azure. Машинное обучение
Machine Learning Blog
Голосование на новые функции Azure ML (страница команды разработки Azure ML, где можно повлиять на приоритеты новых разрабатываемых функций)
Книги
Microsoft Azure Essentials: Azure Machine Learning
Data Science in the Cloud with Azure ML and R
Дополнительные материалы по AzureML:
Создание простого эксперимента в Azure Machine Learning Studio
Анализ оттока клиентов с помощью машинного обучения Microsoft Azure
New Azure services help more people realize the possibilities of big data
Announcing the General Availability of Azure Machine Learning
В этой демонстрации мы рассмотрим пример анализа ряда макроэкономических показателей некоторых стран на территории бывшего СССР.
Данные для анализа загружены с сайта Всемирного банка средствами надстройки Power Query для Excel. Визуализация сформирована с помощью Power View для Excel. Также показаны возможности размещения таких отчетов на портале Office 365 и внесения изменения в эти отчеты с мобильных устройств.
Скачать файл Excel с набором данных и отчетом можно с сайта проекта Public-intelligence.ru: http://public-intelligence.ru/models
Анализ и оптимизация затрат является актуальной задачей финансовых подразделений организаций.
В первой демонстрации показано как аналитик финансового отдела на основании набора данных, полученного из финансовой системы, может самостоятельно сформировать интерактивные панели для анализа затрат. На основании сформированных диаграмм аналитик может выявить направления с наибольшим отклонением фактических затрат от плановых (сформированных в ходе процесса бюджетирования).
Итак, в нашем примере аналитик выявил наиболее критичное отклонение от плана — это затраты на поездки.
Во второй демонстрации аналитик анализирует затраты на авиа-перелеты с целью выявления способов уменьшения их стоимости.
Публикую короткую демонстрацию, в которой показано, как можно быстро (за 10-20 минут) создать линейно-масштабируемый кластер Hadoop (из 4 и более узлов) в Azure для последующей обработки полу-структурированных данных.
Одно из актуальных направлений в нефтегазовой отрасли — это организация транспортировки нефтегазовых продуктов в перерабатывающие заводы и склады.
В качестве примера анализа на карте каналов поставки привожу пример, построенный на базе Bing Maps с использованием партнерских решений MarView и IDV Solutions Visual Fusion.
Актуальная задача для организаций (например, с точки зрения финансовых подразделений) — оптимизация расходов. Для компаний, имеющих много зданий, в том числе очень важно уметь оптимизировать затраты на электроэнергию.
Данная задача решается в Майкрософт в рамках инициативы Microsoft Smart Buildings («умные здания»). В рамках инициативы, в том числе, собирается информация с сенсоров и сохраняется в виде текстовых файлов в облачном сервисе HDInsight for Azure. С помощью Excel и надстройки Power Query эту информацию можно объединить с данными об изменении температуры в регионе (из Википедии) .
В демонстрации показано, как с помощью Power View и Power Map можно визуализировать эту информацию. Также показаны возможности по построению запросов на естественном языке к данным отчетов, размещенных в Power BI для Office 365, а также новые возможности по анализу данной информации на любых устройствах (HTML5) и прогнозированию с использованием алгоритмов временных рядов (функции предсказательной аналитики через веб-браузер).
Доступны записи ключевых докладов (на английском языке) PASS Business Analytics Conference, проходившей 7-9 мая 2014 года в США (штат Калифорния, Сан Хосе):
В последнее время появились варианты создания хранилищ данных в «облаке» (IaaS SQL Server VM или PaaS SQL Azure DB).
Наиболее работоспособный вариант на текущий момент – SQL Server for Data Warehousing в виртуальной машине Windows Azure. Данный подход ускоряет время развертывания хранилища данных, содержит в себе лучшие практики (рекомендации FastTrack DW), снижает первоначальные инвестиции и общую стоимость владения (TCO), автоматически повышает сохранность данных (за счет гео-репликации).
Практические рекомендации по построению хранилищ данных в облаке можно послушать в приведенном ниже докладе Алексея Халяко.