Последнее обновление: 15.10.2016
HDInsight (Hadoop для Windows) является одним из решений Microsoft для задач хранения и обработки больших (огромных) объемов данных.
Архитектурно Hadoop состоит из файловой системы Hadoop Distributed File System (HDFS) и механизма вычислений MapReduce (или YARN), поверх которых могут использоваться различные расширения.
В настоящее время предлагается использовать либо «облачный» вариант Hadoop — HDInsight, либо партнерскую версию Hortonworks HDP (для размещения в локальных центрах обработки данных).
Открытые компоненты для Hadoop
Существует множество компонентов Hadoop, которые можно использовать в проектах на базе HDInsight или HDP. Ниже приведен список наиболее значимых компонентов.
- Java, Phython, JavaScript, .NET, C# (языки разработки);
- HBase (OLTP база данных);
- Pig (организация потоков данных);
- Sqoop (перемещение больших объемов данных);
- Hive ODBC Driver (доступ к данным, в том числе из PowerPivot);
- HCatalog (управление мета-данными);
- Pegasus (интеллектуальный анализ графов);
- Hive (SQL-подобное хранилище данных);
- Mahout (машинное самообучение);
- R (статистический пакет).
Поддержка Hadoop 2.2
В феврале 2014 года Windows Azure HDInsight стал поддерживать кластеры на базе Hadoop 2.2 (в стадии предварительного просмотра).
В новой версии на порядок увеличен отклик на запросы (до 40 раз), обеспечивается сжатие данных (до 80%).
В качестве операционной системы используется YARN, основными преимуществами которой являются:
- возможность одновременного использования нескольких движков обработки данных: пакетного — MapReduce, интерактивного — Tez, онлайнового — HBase, потокового — Storm, графического — Giraf, исполняемого (runtime) — REEF и других;
- наличие средств эффективного использования ресурсов кластера и сервисов: управление и мониторинг, возможность распределения ресурсов сервера между несколькими организациями (multi-tenancy), безопасность, высокая доступность, восстановление в случае сбоев.
Демонстрация анализа журналов сайта из HDInsight (Hive и PowerPivot)
В демонстрации показан анализ журналов сайта на основании данных из HDInsight (Hadoop для Windows), в частности хранение данных и запрос к Hive, запрос к данным из Excel, аналитическая модель в PowerPivot и визуализация в Power View.
Дополнительные материалы
- Официальный сайт Microsoft Big Data
- MSDN: Leveraging a Hadoop cluster from SQL Server Integration Services (SSIS)
- MSDN: SQL Server Analysis Services to Hive (A Klout Case Study)
- TechNet: HDInsight Server
- Hortonworks: Hadoop 2 and YARN available on Windows Azure HDInsight Preview
- Hortonworks: How To Install Hadoop on Windows with HDP 2.0
- Hortonworks Labs. YARN
- Strata Conference. REEF — Retainable Evaluator Execution Framework
- MSDN.ru. Хранение и обработка данных, Big Data, HPC
- Microsoft at Strata-Hadoop World 2012
- Simplifying Big Data for the Enterprise
- Материалы конференции Strata Conference-Hadoop World
- Видео доклада Алексея Халяко и Александра Гвоздева «Хранилища данных против BigData«
- Хабрахабр. Кластеры Hadoop по запросу из облака: внутреннее устройство, первые шаги, задачи, Hive
- Алексей Халяко. Expanding HDP Hadoop file system to Azure Blob Storage
- Telcos Do Hadoop. Use Apache Hadoop to Improve Service & Launch New Products
- MSDN. SSIS Packages Sample for Hadoop and Windows Azure
Добавить комментарий