Курсы edX по Machine Learning и Big Data

На обучающем ресурсе edX доступны бесплатные курсы Microsoft по темам:

edx-ms-courses

Создание кластера Hadoop в Azure (HDInsight)

Публикую короткую демонстрацию, в которой показано, как можно быстро (за 10-20 минут) создать линейно-масштабируемый кластер Hadoop (из 4 и более узлов) в Azure для последующей обработки полу-структурированных данных.

HDInsight поддерживает Hadoop 2.2 (preview)

Windows Azure HDInsight стал поддерживать кластеры на базе Hadoop 2.2. Пока это работает в стадии предварительного просмотра.

В новой версии на порядок увеличен отклик на запросы (до 40 раз), обеспечивается сжатие данных (до 80%).

В качестве операционной системы используется YARN, основными преимуществами которой являются:

  • возможность одновременного использования нескольких движков обработки данных: пакетного — MapReduce, интерактивного — Tez, онлайнового — HBase, потокового — Storm, графического — Giraf, исполняемого (runtime) — REEF и других;
  • наличие средств эффективного использования ресурсов кластера и сервисов: управление и мониторинг, возможность распределения ресурсов сервера между несколькими организациями (multi-tenancy), безопасность, высокая доступность, восстановление в случае сбоев.

Дополнительно:

  1. Windows Azure Documentation. Get started using Hadoop 2.2 clusters with HDInsight (preview)
  2. Hortonworks Labs. YARN
  3. Strata Conference. REEF — Retainable Evaluator Execution Framework
  4. MSDN.ru. Хранение и обработка данных, Big Data, HPC

Обогащение данных наборами из Windows Azure Marketplace DataMarket

Windows Azure Marketplace – это «онлайн-рынок» для покупки и продажи SaaS-приложений и наборов данных. Здесь можно найти множество данных, включая демографические, финансовые, торговые, телекоммуникационные и прочие отраслевые данные.

marketplace

В настоящее время в Windows Azure Marketplace представлено более 40 провайдеров данных и сотни высококачественных наборов данных (часть из них – бесплатные). В целом здесь содержатся петабайты данных и триллионы значений данных по всему спектру категорий контента.

Использование этих наборов данных позволяет повысить ценность внутреннего набора данных организации за счет его объединения с внешним набором данных.

Давайте посмотрим, как это работает на примере компании, торгующей ценными бумагами. Предположим, архитектор данных собрал информацию о стоимости акций и дивидендах на торговой площадке, а также сделал ее доступной для других участников, используя Windows Azure HDInsight Service и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам. После этого финансовый аналитик может с помощью надстройки Power Query для Excel объединить данные из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Windows Azure Marketplace. После этого мы сможем анализировать данные о стоимости акций и дивидендах в разрезе отраслей.

role2-1

Дополнительно: Анализ «больших данных» для финансового сектора

Анализ «больших данных» для финансового сектора

Публикую демонстрационный сценарий анализа «больших данных» (Big Data) для компаний финансового сектора. В сценарии будут проанализированы полу-структурированные данные по стоимости акций и дивидендам в разрезе соответствующих отраслей экономики за 30 лет (на основании данных Нью-Йоркской фондовой биржи). Аналогичные задачи могут быть актуальны для участников рынка ценных бумаг включая частных и институциональных инвесторов, таких как пенсионные фонды, банки, страховые компании, а также корпорации, размещающие на рынке собственные ценные бумаги.

В этой демонстрации команда компании, торгующей ценными бумагами, совместно производит анализ данных из Hadoop:

  1. Архитектор данных собирает информацию и делает ее доступной для других участников. Он использует Hadoop в Windows Azure и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам.
  2. Финансовый аналитик анализирует данные по стоимости акций и готовит отчеты для поддержки задач торговли и управления. Она использует надстройку Power Query для Excel для объединения данных из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Azure Marketplace Datamarket. Дополнительно она формирует модель данных Power Pivot и создает примеры отчетов Power View.
  3. Начальник управления ценных бумаг отвечает за формирование предложения по составу портфелей ценных бумаг для клиентов. Он самостоятельно производит изменения в отчеты Power View, полученные от финансового аналитика.

Ниже приведены некоторые снимки экрана из демонстрационного сценария.

role1-rus

role1-1

role1-2

role2-rus

role2-1

role2-2

role3-rus

role3-1

role3-2

 

 

27.06.2013. Семинар про SQL Server PDW и интеграцию с HDInsight (Hadoop для Windows)

27.06.2013 в 19:00 в Технологическом центре Microsoft состоится встреча Russian BI PASS Chapter по теме «Использование SQL Server Parallel Data Warehouse (PDW) и интеграция с HDInsight».

Докладчик: Андрей Резник, Microsoft

О докладе.

Microsoft SQL Server Parallel Data Warehouse (PDW) – это высокопроизводительная платформа для организации аналитического хранилища данных (DWH) от десятка до сотен ТБ, обеспечивающая отличную производительность и масштабируемость.Parallel Data Warehouse использует архитектуру обработки больших объемов данных, состоящую в распределении данных и параллельной обработки на разных серверах (узлах). Каждый из узлов использует свои собственные процессоры, память и дисковые ресурсы. Такой подход называется обработкой с массовым параллелизмом (MPP).

Мы рассмотрим базовые принципы, заложенные в PDW, его архитектуру, состав серверов, рекомендации к проектированию схемы данных. Также взглянем на Hadoop, экосистему для построения распределенных систем, и его интеграцию с PDW.

Встреча пройдет в максимально интерактивном режиме. Мы планируем не просто рассказ об указанных технологиях, но и организовать круглый стол и обсудить вопросы построения хранилищ. У вас есть уникальная возможность пообщаться с коллегами и одним из ведущих экспертов в данной области.

Адрес проведения: Москва, ул. Лесная, 5С (бизнес-центр «Белая площадь»), 6 этаж (Microsoft)

Ссылка для регистрации: http://ineta.ru/rubi или http://www.facebook.com/events/204653736351125

Russian BI PASS Chapter (RuBI) logo

Демонстрация анализа журналов сайта из HDInsight (Hadoop для Windows)

В демонстрации показан анализ журналов сайта на основании данных из HDInsight (Hadoop для Windows), в частности хранение данных и запрос к Hive, запрос к данным из Excel, аналитическая модель в PowerPivot и визуализация в Power View.