Azure Data Factory для перемещения и преобразования данных

Azure Data Factory (или Фабрика данных) – это интеграционный «облачный» сервис, который позволяет формировать и автоматизировать перемещение и преобразование данных с использованием локальных и «облачных» источников данных.

azure-df-flow

Azure Data Factory (DF) позволяет комбинировать сервисы в управляемые конвейеры потока данных (data flow pipelines). Для преобразования данных можно использовать следующие сервисы:

  • Azure HDInsight (Hadoop) и Azure Batch для обработки «больших данных»;
  • Azure Machine Learning для продвинутой аналитики и машинного обучения;
  • Azure Stream Analytics для обработки большого количества событий в «реальном времени» и т.д.

Примеры источников данных:

  • Azure Data Warehouse – для создания реляционного хранилища данных;
  • Azure Blob Storage – для дешевого хранения больших объемов неструктурированных и полу-структурированных данных
  • Azure Data Lake – для хранения и скоростной обработки «больших данных» и т.д.

Пример использования: Мониторинг и прогнозирование неполадок автомобилей с помощью Cortana Analytics Suite.

Дополнительно: Introduction to Azure Data Factory Service