Курсы edX по Machine Learning и Big Data

На обучающем ресурсе edX доступны бесплатные курсы Microsoft по темам:

edx-ms-courses

Создание кластера Hadoop в Azure (HDInsight)

Публикую короткую демонстрацию, в которой показано, как можно быстро (за 10-20 минут) создать линейно-масштабируемый кластер Hadoop (из 4 и более узлов) в Azure для последующей обработки полу-структурированных данных.

HDInsight поддерживает Hadoop 2.2 (preview)

Windows Azure HDInsight стал поддерживать кластеры на базе Hadoop 2.2. Пока это работает в стадии предварительного просмотра.

В новой версии на порядок увеличен отклик на запросы (до 40 раз), обеспечивается сжатие данных (до 80%).

В качестве операционной системы используется YARN, основными преимуществами которой являются:

  • возможность одновременного использования нескольких движков обработки данных: пакетного — MapReduce, интерактивного — Tez, онлайнового — HBase, потокового — Storm, графического — Giraf, исполняемого (runtime) — REEF и других;
  • наличие средств эффективного использования ресурсов кластера и сервисов: управление и мониторинг, возможность распределения ресурсов сервера между несколькими организациями (multi-tenancy), безопасность, высокая доступность, восстановление в случае сбоев.

Дополнительно:

  1. Windows Azure Documentation. Get started using Hadoop 2.2 clusters with HDInsight (preview)
  2. Hortonworks Labs. YARN
  3. Strata Conference. REEF — Retainable Evaluator Execution Framework
  4. MSDN.ru. Хранение и обработка данных, Big Data, HPC

Обогащение данных наборами из Windows Azure Marketplace DataMarket

Windows Azure Marketplace – это «онлайн-рынок» для покупки и продажи SaaS-приложений и наборов данных. Здесь можно найти множество данных, включая демографические, финансовые, торговые, телекоммуникационные и прочие отраслевые данные.

marketplace

В настоящее время в Windows Azure Marketplace представлено более 40 провайдеров данных и сотни высококачественных наборов данных (часть из них – бесплатные). В целом здесь содержатся петабайты данных и триллионы значений данных по всему спектру категорий контента.

Использование этих наборов данных позволяет повысить ценность внутреннего набора данных организации за счет его объединения с внешним набором данных.

Давайте посмотрим, как это работает на примере компании, торгующей ценными бумагами. Предположим, архитектор данных собрал информацию о стоимости акций и дивидендах на торговой площадке, а также сделал ее доступной для других участников, используя Windows Azure HDInsight Service и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам. После этого финансовый аналитик может с помощью надстройки Power Query для Excel объединить данные из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Windows Azure Marketplace. После этого мы сможем анализировать данные о стоимости акций и дивидендах в разрезе отраслей.

role2-1

Дополнительно: Анализ «больших данных» для финансового сектора

Анализ «больших данных» для финансового сектора

Публикую демонстрационный сценарий анализа «больших данных» (Big Data) для компаний финансового сектора. В сценарии будут проанализированы полу-структурированные данные по стоимости акций и дивидендам в разрезе соответствующих отраслей экономики за 30 лет (на основании данных Нью-Йоркской фондовой биржи). Аналогичные задачи могут быть актуальны для участников рынка ценных бумаг включая частных и институциональных инвесторов, таких как пенсионные фонды, банки, страховые компании, а также корпорации, размещающие на рынке собственные ценные бумаги.

В этой демонстрации команда компании, торгующей ценными бумагами, совместно производит анализ данных из Hadoop:

  1. Архитектор данных собирает информацию и делает ее доступной для других участников. Он использует Hadoop в Windows Azure и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам.
  2. Финансовый аналитик анализирует данные по стоимости акций и готовит отчеты для поддержки задач торговли и управления. Она использует надстройку Power Query для Excel для объединения данных из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Azure Marketplace Datamarket. Дополнительно она формирует модель данных Power Pivot и создает примеры отчетов Power View.
  3. Начальник управления ценных бумаг отвечает за формирование предложения по составу портфелей ценных бумаг для клиентов. Он самостоятельно производит изменения в отчеты Power View, полученные от финансового аналитика.

Ниже приведены некоторые снимки экрана из демонстрационного сценария.

role1-rus

role1-1

role1-2

role2-rus

role2-1

role2-2

role3-rus

role3-1

role3-2

 

 

27.06.2013. Семинар про SQL Server PDW и интеграцию с HDInsight (Hadoop для Windows)

27.06.2013 в 19:00 в Технологическом центре Microsoft состоится встреча Russian BI PASS Chapter по теме «Использование SQL Server Parallel Data Warehouse (PDW) и интеграция с HDInsight».

Докладчик: Андрей Резник, Microsoft

О докладе.

Microsoft SQL Server Parallel Data Warehouse (PDW) – это высокопроизводительная платформа для организации аналитического хранилища данных (DWH) от десятка до сотен ТБ, обеспечивающая отличную производительность и масштабируемость.Parallel Data Warehouse использует архитектуру обработки больших объемов данных, состоящую в распределении данных и параллельной обработки на разных серверах (узлах). Каждый из узлов использует свои собственные процессоры, память и дисковые ресурсы. Такой подход называется обработкой с массовым параллелизмом (MPP).

Мы рассмотрим базовые принципы, заложенные в PDW, его архитектуру, состав серверов, рекомендации к проектированию схемы данных. Также взглянем на Hadoop, экосистему для построения распределенных систем, и его интеграцию с PDW.

Встреча пройдет в максимально интерактивном режиме. Мы планируем не просто рассказ об указанных технологиях, но и организовать круглый стол и обсудить вопросы построения хранилищ. У вас есть уникальная возможность пообщаться с коллегами и одним из ведущих экспертов в данной области.

Адрес проведения: Москва, ул. Лесная, 5С (бизнес-центр «Белая площадь»), 6 этаж (Microsoft)

Ссылка для регистрации: http://ineta.ru/rubi или http://www.facebook.com/events/204653736351125

Russian BI PASS Chapter (RuBI) logo

Демонстрация анализа журналов сайта из HDInsight (Hadoop для Windows)

В демонстрации показан анализ журналов сайта на основании данных из HDInsight (Hadoop для Windows), в частности хранение данных и запрос к Hive, запрос к данным из Excel, аналитическая модель в PowerPivot и визуализация в Power View.

Анонсы на Саммите PASS 2012 («Hekaton», PDW, PolyBase)

Вчера (07.11.2012) завершился первый день Саммит PASS, на котором было сделано несколько важных анонсов.

В части доклада со стороны PASS была анонсирована конференция PASS Business Analytics Conference, которая будет проходить в Чикаго с 10 по 12 апреля 2013 года. Регистрация на конференцию открыта.

Далее Тед Куммерт, вице президент Microsoft, анонсировал выход SQL Server 2012 SP1, который интегрируется с Office 2013, а также рассказал о новых возможностях ускорения обработки данных в следующей версии SQL Server.

Транзакционная СУБД в памяти, проект «Hekaton»

Транзакционная СУБД в памяти, проект с кодовым именем «Hekaton», выйдет со следующей версией SQL Server. В демонстрации была показана возможность возможность диагностики таблиц-кандидатов для размещения в памяти, операция миграции существующей таблицы в память и увеличение производительности в десятки раз (и уменьшение количества локировок).

Обновляемые и кластерные индексы хранения колонок

Индекс хранения колонок (СolumnStore Index) в следующей версии SQL Server станет поддерживать обновления данных (т.е. можно будет постоянно подгружать данные в хранилище данных), а также будет поддерживаться кластерный индекс хранения колонок.

SQL Server 2012 PDW

SQL Server 2012 Parallel Data Warehouse (PDW) будет доступен в первой половине 2013 года. Программно-аппаратный комплекс будет поддерживать индексы хранения колонок с возможностью обновления (возможно увеличение производительности до 50 раз), работать с комплексом можно будет через SQL Server Data Tools, SQL Server Reporting Services сможет подсоединяться к PDW через родной коннектор SQL Server.

PolyBase

PolyBase позволит работать из SQL Server Data Tools с данными из HDInsight (Hadoop для Windows), а также делать запросы одновременно на основании реляционных данных и данных из Hadoop. В будущем PolyBase позволит делать запросы одновременно к нескольким дополнительным источникам данных.

PolyBase будет доступен в следующем релизе SQL Server 2012 PDW в первой половине 2013 года.

Дополнительные материалы

  1. Ключевой доклад PASS Summit 2012
  2. Фрагменты сессий PASS Summit 2012
  3. Презентации с PASS Summit 2012 (требуется регистрация)
  4. Финальная версия SQL Server 2012 Service Pack 1
  5. MSDN: New or Enhanced Features in SQL Server 2012 SP1
  6. SQL Server Blog. PASS Summit 2012: Accelerating Business through Data Insights
  7. ZDNet. Microsoft: Hey, we’re an in-memory database player, too
  8. ZDNet. Microsoft to fold in-memory database technology into SQL Server Next

«Большие данные» и HDInsight (Hadoop от Microsoft) для обработки петабайт информации

Последняя версия этой статьи: https://microsoftbi.ru/basics/bigdata/hdinsight/

В настоящее время становятся все более актуальными решения для работы с большими объемами данных (в английской терминологии – «Big Data»). Под «большими данными» понимаются данные больших объемов (петабайты информации), возникающие или обновляющиеся с большой скоростью, а также данные с большим разнообразием типов данных.

Примеры сценариев использования «больших данных»:

  • анализ социальных сетей;
  • мониторинг и оптимизация дорожного движения, работы веб-приложений, оборудования;
  • анализ ухода клиентов;
  • исследование природных ресурсов, медицинские и прочие научные исследования;
  • обнаружение мошенничества;
  • анализ рекламных кампаний.

Решение Microsoft для работы с большими данными состоит из задач:

  • управления данными, которое реализуется через SQL Server Parallel Data Warehouse для управления сотнями терабайт структурированных данных; SQL Server StreamInsight для выявления сложных событий в реальном времени и HDInsight для обработки петабайт неструктурированной информации;
  • обогащения данных через каталог статистических данных Azure Marketplace Datamarket;
  • исследования данных с помощью PowerPivot и Power View для Excel и SharePoint.

Hadoop

Архитектурно Hadoop состоит из файловой системы Hadoop Distributed File System (HDFS) и механизма вычислений MapReduce, поверх которых могут использоваться различные расширения.

Структура узлов HDFS

Hadoop Distributed File System (HDFS) – это файловая система, предназначенная для хранения очень больших файлов с возможностью потокового доступа к данным, работающая на кластерах из произвольного аппаратного обеспечения.

Файлы в HDFS разбиваются на блоки, если размер файла превышает размер блока. По умолчанию размер блока в HDFS может составлять 64, 128 или 256 Мбайт, и каждый блок реплицируется в трех экземплярах.

Кластер HDFS состоит из управляющего узла (NameNode) и узлов хранения данных (DataNode). NameNode управляет пространством имен файловой системы (дерево файлов и мета-данные файлов и каталогов).

При чтении файла из HDFS клиент получает адреса расположения блоков от управляющего узла и самостоятельно осуществляет последовательное чтение с узлов блоков файла. При этом для каждого блока выбирается «ближайший узел».

Благодаря тому, что клиент извлекает данные с узлов данных напрямую HDFS может масштабироваться до большого количества конкурентных клиентов, т.к. трафик распределен между узлами данных в кластере.

Механизм MapReduce

Поверх файловой системы HDFS находится механизм MapReduce, который позволяет на уровне узлов данных сделать извлечение данных и расчет на основании этих данных, а на главном узле подготовить общий ответ на основании данных от всех узлов данных.

Microsoft HDInsight

25 октября 2012 года на конференции Strata Conference-Hadoop World было представлено решение HDInsight (Hadoop для Windows), которое может быть размещено как в пределах собственных корпоративных центров данных организаций, так и в облаке. В текущий момент с сайта microsoft.com/bigdata можно скачать предварительную версию HDInsight для изучения и функционального тестирования.

Открытые компоненты для Hadoop

Существует множество компонентов Hadoop, которые можно использовать в проектах на базе HDInsight. Ниже приведен список наиболее значимых компонентов.

  • Java, Phython, JavaScript, .NET, C# (языки разработки);
  • HBase (OLTP база данных);
  • Pig (организация потоков данных);
  • Sqoop (перемещение больших объемов данных);
  • Hive ODBC Driver (доступ к данным, в том числе из PowerPivot);
  • HCatalog (управление мета-данными);
  • Pegasus (интеллектуальный анализ графов);
  • Hive (SQL-подобное хранилище данных);
  • Mahout (машинное самообучение);
  • R (статистический пакет).

Дополнительные материалы

  1. Официальный сайт Microsoft Big Data
  2. Microsoft at Strata-Hadoop World 2012
  3. Simplifying Big Data for the Enterprise
  4. Материалы конференции Strata Conference-Hadoop World