Azure Data Factory (или Фабрика данных) – это интеграционный «облачный» сервис, который позволяет формировать и автоматизировать перемещение и преобразование данных с использованием локальных и «облачных» источников данных.
Azure Data Factory (DF) позволяет комбинировать сервисы в управляемые конвейеры потока данных (data flow pipelines). Для преобразования данных можно использовать следующие сервисы:
Azure HDInsight (Hadoop) и Azure Batch для обработки «больших данных»;
Давайте рассмотрим сценарий продвинутой аналитики, демонстрирующий как авто-дилеры, страховые компании и производители автомобилей могут использовать Cortana Analytics Suite включая Power BI в решении для получения аналитики реального времени и предсказаний работоспособности автомобилей и поведенческих шаблонов при вождении для улучшения качества езды, улучшения автомобилей и маркетинговых компаний.
Архитектура решения приведена на следующем рисунке:
Потоковые данные с датчиков автомобиля по сети Интернет поступают в Event Hub. Далее они поступают на вход Azure Stream Analytics (ASA).
В ASA настроены три постоянных запроса над входным потоком данных, каждый из которых обогащаются информацией о параметрах автомобилей из каталога автомобилей, хранящегося в Azure Blob Storage:
Запрос №1 содержит данные по каждому автомобилю для отражения в реальном времени в Power BI.
Запрос №2 отправляет данные по автомобилям в хранилище Blob Storage (это «большие данные» с точки зрения объемов информации; такие объемы выгодно хранить в Azure Blog Storage, т.к. в этом случае стоимость хранения минимальна).
Запрос №3 агрегирует информацию по каждой модели и городу для сохранения в реляционном хранилище Azure DW для последующего отражение исторической отчетности.
Компонент решения Azure Data Factory выполняет интеграционную задачу. На основании файла, сгенерированного в ходе выполнения запроса №2 в ASA, в Blob Storage формируются три таблицы с выделением сведений об эффективности использования горючего, об агрессивности вождения и о возможных аномалиях.
За формирование этих дополнительных таблиц отвечают скрипты Hive, в которых задается структура таблиц над CSV-файлами, а затем выполняется агрегирование информации с помощью INSERT-запросов.
Выборка данных об аномалиях направляется в сервис Azure Machine Learning, где формируется прогноз по возможному выходу автомобилей из строя. Благодаря этому прогнозу можно проактивно заказывать требуемые компоненты на замену и выполнять техническое обслуживание автомобилей (это сводит к минимуму простои оборудования).
Пример пакета по выбору и обучению модели для обнаружения аномалий приведен на следующем снимке экрана.
Далее информация из файлов в Blob Storage направляется в хранилище Azure Data Warehouse и отражается на информационных панелях Power BI. Другая часть данные поступает напрямую из ASA и отражается в Power BI в «реальном времени».
Используемые в сценарии технологии: Event Hub, Azure Stream Analytics, Azure Machine Learning, Azure Data Factory, HDInsight, Azure Storage, Azure DW, и Power BI.
Cortana Analytics – это полностью управляемый пакет решений в «облаке» (Microsoft Azure) по обработке «больших данных» и продвинутой аналитике, который позволяет трансформировать данные организаций (полученных из бизнес- и пользовательских приложений, а также с сенсоров и устройств) в обоснованные управленческие решения (в виде рекомендаций для персонала) или действия (например, в автоматизированных системах).
Cortana Analytics Suite включает следующие продукты и возможности (также см. рисунок ниже):
Сконфигурированные бизнес-сценарии: рекомендации, прогнозирование, предотвращение ухода клиентов и т.д.;
Персональный цифровой ассистент: Cortana;
Распознавание персональных взаимодействий и намерений: распознавание лиц, комьютерное зрение, распознавание речи и анализ текстов;
Машинное обучение и аналитика: Azure Machine Learning, Azure HDInsight (развитие системы Hadoop), Azure Stream Analytics (анализ потоковых данных — «облачный» вариант технологии StreamInsight);
Хранилища больших данных: Azure Data Lake (репозитарий «больших данных» на базе HDFS), Azure SQL Data Warehouse (масштабируемое хранилище данных — «облачный» вариант APS-PDW);
Управление информацией: Azure Data Factory (оркестровки по обработке данных), Azure Data Catalog (облачный каталог данных), Azure Event Hubs.