Последняя версия этой статьи: https://microsoftbi.ru/basics/bigdata/hdinsight/
В настоящее время становятся все более актуальными решения для работы с большими объемами данных (в английской терминологии – «Big Data»). Под «большими данными» понимаются данные больших объемов (петабайты информации), возникающие или обновляющиеся с большой скоростью, а также данные с большим разнообразием типов данных.
Примеры сценариев использования «больших данных»:
- анализ социальных сетей;
- мониторинг и оптимизация дорожного движения, работы веб-приложений, оборудования;
- анализ ухода клиентов;
- исследование природных ресурсов, медицинские и прочие научные исследования;
- обнаружение мошенничества;
- анализ рекламных кампаний.
Решение Microsoft для работы с большими данными состоит из задач:
- управления данными, которое реализуется через SQL Server Parallel Data Warehouse для управления сотнями терабайт структурированных данных; SQL Server StreamInsight для выявления сложных событий в реальном времени и HDInsight для обработки петабайт неструктурированной информации;
- обогащения данных через каталог статистических данных Azure Marketplace Datamarket;
- исследования данных с помощью PowerPivot и Power View для Excel и SharePoint.

Hadoop
Архитектурно Hadoop состоит из файловой системы Hadoop Distributed File System (HDFS) и механизма вычислений MapReduce, поверх которых могут использоваться различные расширения.
Структура узлов HDFS
Hadoop Distributed File System (HDFS) – это файловая система, предназначенная для хранения очень больших файлов с возможностью потокового доступа к данным, работающая на кластерах из произвольного аппаратного обеспечения.
Файлы в HDFS разбиваются на блоки, если размер файла превышает размер блока. По умолчанию размер блока в HDFS может составлять 64, 128 или 256 Мбайт, и каждый блок реплицируется в трех экземплярах.

Кластер HDFS состоит из управляющего узла (NameNode) и узлов хранения данных (DataNode). NameNode управляет пространством имен файловой системы (дерево файлов и мета-данные файлов и каталогов).
При чтении файла из HDFS клиент получает адреса расположения блоков от управляющего узла и самостоятельно осуществляет последовательное чтение с узлов блоков файла. При этом для каждого блока выбирается «ближайший узел».
Благодаря тому, что клиент извлекает данные с узлов данных напрямую HDFS может масштабироваться до большого количества конкурентных клиентов, т.к. трафик распределен между узлами данных в кластере.
Механизм MapReduce
Поверх файловой системы HDFS находится механизм MapReduce, который позволяет на уровне узлов данных сделать извлечение данных и расчет на основании этих данных, а на главном узле подготовить общий ответ на основании данных от всех узлов данных.

Microsoft HDInsight
25 октября 2012 года на конференции Strata Conference-Hadoop World было представлено решение HDInsight (Hadoop для Windows), которое может быть размещено как в пределах собственных корпоративных центров данных организаций, так и в облаке. В текущий момент с сайта microsoft.com/bigdata можно скачать предварительную версию HDInsight для изучения и функционального тестирования.

Открытые компоненты для Hadoop
Существует множество компонентов Hadoop, которые можно использовать в проектах на базе HDInsight. Ниже приведен список наиболее значимых компонентов.
- Java, Phython, JavaScript, .NET, C# (языки разработки);
- HBase (OLTP база данных);
- Pig (организация потоков данных);
- Sqoop (перемещение больших объемов данных);
- Hive ODBC Driver (доступ к данным, в том числе из PowerPivot);
- HCatalog (управление мета-данными);
- Pegasus (интеллектуальный анализ графов);
- Hive (SQL-подобное хранилище данных);
- Mahout (машинное самообучение);
- R (статистический пакет).
Дополнительные материалы
- Официальный сайт Microsoft Big Data
- Microsoft at Strata-Hadoop World 2012
- Simplifying Big Data for the Enterprise
- Материалы конференции Strata Conference-Hadoop World
Filed under: Статьи | Tagged: Big Data, HDInsight | 1 Comment »