«Большие данные» и HDInsight (Hadoop от Microsoft) для обработки петабайт информации

Последнее обновление: 15.10.2016

HDInsight (Hadoop для Windows) является одним из решений Microsoft для задач хранения и обработки больших (огромных) объемов данных.

Архитектурно Hadoop состоит из файловой системы Hadoop Distributed File System (HDFS) и механизма вычислений MapReduce (или YARN), поверх которых могут использоваться различные расширения.

В настоящее время предлагается использовать либо «облачный» вариант Hadoop — HDInsight, либо партнерскую версию Hortonworks HDP (для размещения в локальных центрах обработки данных).

Открытые компоненты для Hadoop

Существует множество компонентов Hadoop, которые можно использовать в проектах на базе HDInsight или HDP. Ниже приведен список наиболее значимых компонентов.

  • Java, Phython, JavaScript, .NET, C# (языки разработки);
  • HBase (OLTP база данных);
  • Pig (организация потоков данных);
  • Sqoop (перемещение больших объемов данных);
  • Hive ODBC Driver (доступ к данным, в том числе из PowerPivot);
  • HCatalog (управление мета-данными);
  • Pegasus (интеллектуальный анализ графов);
  • Hive (SQL-подобное хранилище данных);
  • Mahout (машинное самообучение);
  • R (статистический пакет).

Поддержка Hadoop 2.2

В феврале 2014 года Windows Azure HDInsight стал поддерживать кластеры на базе Hadoop 2.2 (в стадии предварительного просмотра).

В новой версии на порядок увеличен отклик на запросы (до 40 раз), обеспечивается сжатие данных (до 80%).

В качестве операционной системы используется YARN, основными преимуществами которой являются:

  • возможность одновременного использования нескольких движков обработки данных: пакетного — MapReduce, интерактивного — Tez, онлайнового — HBase, потокового — Storm, графического — Giraf, исполняемого (runtime) — REEF и других;
  • наличие средств эффективного использования ресурсов кластера и сервисов: управление и мониторинг, возможность распределения ресурсов сервера между несколькими организациями (multi-tenancy), безопасность, высокая доступность, восстановление в случае сбоев.

Демонстрация анализа журналов сайта из HDInsight (Hive и PowerPivot)

В демонстрации показан анализ журналов сайта на основании данных из HDInsight (Hadoop для Windows), в частности хранение данных и запрос к Hive, запрос к данным из Excel, аналитическая модель в PowerPivot и визуализация в Power View.

Дополнительные материалы

  1. Официальный сайт Microsoft Big Data
  2. MSDN: Leveraging a Hadoop cluster from SQL Server Integration Services (SSIS)
  3. MSDN: SQL Server Analysis Services to Hive (A Klout Case Study)
  4. TechNet: HDInsight Server
  5. Hortonworks: Hadoop 2 and YARN available on Windows Azure HDInsight Preview
  6. Hortonworks: How To Install Hadoop on Windows with HDP 2.0
  7. Hortonworks Labs. YARN
  8. Strata Conference. REEF — Retainable Evaluator Execution Framework
  9. MSDN.ru. Хранение и обработка данных, Big Data, HPC
  10. Microsoft at Strata-Hadoop World 2012
  11. Simplifying Big Data for the Enterprise
  12. Материалы конференции Strata Conference-Hadoop World
  13. Видео доклада Алексея Халяко и Александра Гвоздева «Хранилища данных против BigData«
  14. Хабрахабр. Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive
  15. Алексей Халяко. Expanding HDP Hadoop file system to Azure Blob Storage
  16. Telcos Do Hadoop. Use Apache Hadoop to Improve Service & Launch New Products
  17. MSDN. SSIS Packages Sample for Hadoop and Windows Azure

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: