Azure Machine Learning как развитие технологий интеллектуального анализа данных

Последнее обновление: 09.12.2015

Мы долго ждали развития технологии интеллектуального анализа данных (SSAS Data Mining) и наконец то дождались! 18 февраля 2015 года на конференции «Strata + Hadoop World» было объявлено о доступности официальной версии технологии Azure ML (Machine Learning). В контексте объявленной там же доступности технологии Storm на базе HDInsight это говорит о продолжении активного инвестирования компанией Майкрософт в технологии извлечения знаний из «больших данных».

С использованием Azure ML разработчики и аналитики могут в сжатые сроки построить и внедрить решения для улучшения сервиса для клиентов, предсказания и предотвращения сбоев оборудования, повышения операционной эффективности, предотвращения мошенничества и решения огромного количества других задач.

В дополнение к стандартным алгоритмам, можно использовать Machine Learning Marketplace для поиска программных интерфейсов (API) и готовых сервисов, таких как движок рекомендаций, обнаружение аномалий и прогнозирование, с целью повышения скорости внедрения.

Преимущества Azure ML:

  1. Уменьшение сложности использования: доступность через веб-браузер, наличие среды совместной работы Azure workspace; решение строится в виде графа компонентов; используются лучшие алгоритмы, возможности расширения и поддержки R OSS.
  2. Ускоренное построение экспериментов для создания наилучших моделей: возможности поиска и повторного использования моделей; возможность быстро и одновременно использовать различные алгоритмы машинного обучения и стратегии моделирования.

Как начать работать с Azure ML?

Чтобы быстро начать использовать Azure ML вы можете использовать большое количество готовых примеров экспериментов, подготовленных в Майкрософт. samples Можно также использовать примеры из галереи экспериментов, которая пополняется не только силами Майкрософт, но и участниками сообщества. Примеры экспериментов из галереи также можно публиковать через Twitter и LinkedIn. gallery2 gallery

Процесс работы с Azure ML

Работа с Azure ML состоит из следующих шагов. logic При доступе к данным в качестве источников данных могут использоваться текстовые файлы (CSV, TSV и с другими разделителями), файлы HDFS, таблицы Hive из Hadoop, таблицы SQL Azure, объекты и таблицы в Azure, потоки данных OData и JSON, веб-страницы

Для изучения данных можно использовать набор модулей для извлечения примеров данных (случайные, Top-N, диапазоны, расслоения), модули статистического анализа данных (распределение, корреляция, тестирование гипотез), а также очень полезна возможность визуализации наборов данных.

Для создания и выбора признаков можно использовать блоки масштабирования и функциональные преобразования, группировка цифровых характеристик, двоичное кодирование категориальных функций, выделение признаков с помощью скриптового языка R, выбор компонентов с использованием фильтров (корреляция, частота, взаимная информация, хи-квадрат) и упаковщиков (пошаговый выбор характеристик).

При разработке модели используются алгоритмы классификации (Boosted Decision Trees, Random Forests, Logistic Regression, SVM, Averaged Perceptron, Neural networks), регрессии (Linear Regression, Boosted Decision Trees, Neural networks), рекомендаций (SVD, Non-negative matrix factorization) и кластеризации (K-means). Новый алгоритм «Learning with Counts», позволяет извлекать знания из терабайт информации путем решения задач классификации и регрессии с использованием нейронных сетей и деревьев принятия решений (boosted decision trees). Алгоритмы машинного обучения в Azure ML автоматически масштабируются в HDInsight для Azure в зависимости от обрабатываемых объемов данных. В частности, можно использовать очень мощный статистический скриптовый пакет R, который использует инфраструктуру Hadoop (HDInsight), и язык программирования Python.

Для экспериментирования и оценки работы алгоритмов можно применять несколько методов разделения набора данных (случайное, диапазонное, расслоением), поддерживается «K-fold» кросс-валидация, операционные метрики (Confusion matrix, Precision/Recall, True/False positives/negatives и т.д.) и глобальные метрики (ROC, AUC, Lift chart, RMSE, r-squared и т.д.) experiment Исследователи данных могут публиковать готовые в веб-сервисе Azure ML для последующего потребления пользователями организаций. Преимущества использования веб-сервисе Azure ML:

  • может автоматически масштабироваться в ответ на объемы использования (это позволяет экономить аппаратные ресурсы);
  • его можно использовать как в пакетном, так и в интерактивном режиме;
  • активно отслеживает изменения используемых моделей;
  • есть функции телеметрии (отслеживания качества работы используемых алгоритмов) и управления моделями (возврат произведенных изменений, повторная тренировка моделей).

Открытый программный интерфейс (API) позволяет обновлять модели Azure ML непосредственно из приложений. Это актуально для автоматического переобучения модели при появлении новых данных, что может улучшить качество ее работы.

Демонстрация

В этой демонстрации мы будем использовать Azure ML для автоматической генерации рекомендаций для клиентов магазина розничной торговли.

Надстройка Azure ML для Excel

Надстройка доступна из меню Excel «Insert — My Add-int — See all…», позволяет подключить опубликованный в виде веб-сервиса эксперимент и делать предсказания на базе наборов данных в Excel.

excel-addin

Заключение

Azure ML гибко встраивается в решения на базе платформы данных Майкрософт в «облачном» или гибридном варианте размещения. В качестве источников данных могут использоваться «облачные» HDInsight, SQL Server (виртуальные машины или база данных), Document DB, Blob-файлы и таблицы, данные из которых можно готовить в нужный формат с помощью Data Factory. Локальные ресурсы (текстовые файлы, таблицы Excel и т.д.) можно хранить в пространстве хранения (Storage Space). Эксперименты машинного обучения готовятся в Azure ML Workspace и публикуются в течение минут в Azure Portal. Далее с использованием портальных решений, таких как Office 365 и Power BI, и приложений результаты анализа можно отображать на различных устройствах.

architecture

Примеры внедрений Azure ML (18 февраля 2015 года): Pier 1, Carnegie Mellon, eSmart Systems, Mendeley и ThyssenKrupp.

Информационные ресурсы по Azure ML:

  1. Документация по Azure ML
  2. Microsoft Azure. Машинное обучение
  3. Machine Learning Blog
  4. Голосование на новые функции Azure ML (страница команды разработки Azure ML, где можно повлиять на приоритеты новых разрабатываемых функций)

Книги

  1. Microsoft Azure Essentials: Azure Machine Learning
  2. Data Science in the Cloud with Azure ML and R

Дополнительные материалы по Azure ML:

  1. Создание простого эксперимента в Azure Machine Learning Studio
  2. Анализ оттока клиентов с помощью машинного обучения Microsoft Azure
  3. New Azure services help more people realize the possibilities of big data
  4. Announcing the General Availability of Azure Machine Learning
  5. Azure Machine Learning Frequently Asked Questions (FAQ)
  6. Microsoft Azure Machine Learning Algorithm Cheat Sheet
  7. Блог Сергея Мастицкого. R: Анализ и визуализация данных 
  8. MSDN: статья Дмитрия Петухова Azure Machine Learning для Data Scientist
  9. MSDN: статья Алексея Романова Анализ тональности текста с помощью Azure Machine Learning
  10. Неизвестный автор: Обработка русских текстов в Azure ML на языках Python и R
  11. 100 лучших видео (вебкастов) про Azure ML
  12. Execute Python machine learning scripts in Azure Machine Learning Studio

Дополнительные компоненты Azure ML:

  1. Azure Machine Learning Excel Add-In

Один ответ

  1. […] Azure Machine Learning как развитие технологий интеллектуальног… – отличная обзорная статья от специалиста Microsoft про сервис машинного обучения […]

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

Отслеживать

Настройте получение новых записей по электронной почте.

Присоединиться к ещё 47 подписчикам

%d такие блоггеры, как: