Пример анализа на карте поставок нефтегазовых продуктов

Одно из актуальных направлений в нефтегазовой отрасли — это организация транспортировки нефтегазовых продуктов в перерабатывающие заводы и склады.

В качестве примера анализа на карте каналов поставки привожу пример, построенный на базе Bing Maps с использованием партнерских решений MarView и IDV Solutions Visual Fusion.

Другие примеры см. в разделе Аналитика для нефтегазовой отрасли.

Визуализация и анализ затрат на электроэнергию

Актуальная задача для организаций (например, с точки зрения финансовых подразделений) — оптимизация расходов. Для компаний, имеющих много зданий, в том числе очень важно уметь оптимизировать затраты на электроэнергию.

Данная задача решается в Майкрософт в рамках инициативы Microsoft Smart Buildings («умные здания»). В рамках инициативы, в том числе, собирается информация с сенсоров и сохраняется в виде текстовых файлов в облачном сервисе HDInsight for Azure. С помощью Excel и надстройки Power Query эту информацию можно объединить с данными об изменении температуры в регионе (из Википедии) .

В демонстрации показано, как с помощью Power View и Power Map можно визуализировать эту информацию. Также показаны возможности по построению запросов на естественном языке к данным отчетов, размещенных в Power BI для Office 365, а также новые возможности по анализу данной информации на любых устройствах (HTML5) и прогнозированию с использованием алгоритмов временных рядов (функции предсказательной аналитики через веб-браузер).

Записи ключевых докладов PASS Business Analytics Conference

Доступны записи ключевых докладов (на английском языке) PASS Business Analytics Conference, проходившей 7-9 мая 2014 года в США (штат Калифорния, Сан Хосе):

Создание хранилища данных в «облаке» (SQL Server for Data Warehousing Azure VM)

В последнее время появились варианты создания хранилищ данных в «облаке» (IaaS SQL Server VM или PaaS SQL Azure DB).

Наиболее работоспособный вариант на текущий момент – SQL Server for Data Warehousing в виртуальной машине Windows Azure. Данный подход ускоряет время развертывания хранилища данных, содержит в себе лучшие практики (рекомендации FastTrack DW), снижает первоначальные инвестиции и общую стоимость владения (TCO), автоматически повышает сохранность данных (за счет гео-репликации).

Практические рекомендации по построению хранилищ данных в облаке можно послушать в приведенном ниже докладе Алексея Халяко.

Интеллектуальный анализ ценности акций

В качестве расширения сценария анализа «больших данных» для финансового сектора выкладываю демонстрацию интеллектуального анализа данных (предсказательной аналитики) на основе сформированного набора данных. В сценарии создается обобщенный показатель оценки стоимости акций компаний с учетом дивидендов, а производится попытка выявления значений атрибутов, влияющих на стабильно высокий рост ценности акций.

Предсказательный анализ данных по здравоохранению

Начинаю публиковать сценарии, которые не удалось показать в полном объеме на «Дне платформы Microsoft».

В этой демонстрации показано использование движка интеллектуального анализа данных SQL Server (SSAS Data Mining) и надстройку интеллектуального анализа для Excel с целью анализа некоторых данных статистического сборника Росстата по здравоохранению. Анализируется влияние различных факторов на низкий и высокий уровень смертности в регионах (субъектах РФ).

В настоящее время ведутся работы по расширению представленной модели данных. Буду благодарен за любые идеи по ее расширению.

Следует также обратить внимание, что потенциально возможны неточности при сборке и интерпретации данных. Буду благодарен за любые исправления.

Запуск SQL Server 2014 в России

24 апреля 2014 года Microsoft представляет SQL Server 2014 в России!

На конференции будут представлены In-Memory OLTP (Hekaton), BIG DATA, Power BI, Windows Azure HDInsight и другие новейшие технологии работы с данными в трех треках за один день от ведущих экспертов Microsoft, компаний-партнеров и крупнейших российских заказчиков.

Подробнее: сайт конференции, регистрация.

sql2014launch

HDInsight поддерживает Hadoop 2.2 (preview)

Windows Azure HDInsight стал поддерживать кластеры на базе Hadoop 2.2. Пока это работает в стадии предварительного просмотра.

В новой версии на порядок увеличен отклик на запросы (до 40 раз), обеспечивается сжатие данных (до 80%).

В качестве операционной системы используется YARN, основными преимуществами которой являются:

  • возможность одновременного использования нескольких движков обработки данных: пакетного — MapReduce, интерактивного — Tez, онлайнового — HBase, потокового — Storm, графического — Giraf, исполняемого (runtime) — REEF и других;
  • наличие средств эффективного использования ресурсов кластера и сервисов: управление и мониторинг, возможность распределения ресурсов сервера между несколькими организациями (multi-tenancy), безопасность, высокая доступность, восстановление в случае сбоев.

Дополнительно:

  1. Windows Azure Documentation. Get started using Hadoop 2.2 clusters with HDInsight (preview)
  2. Hortonworks Labs. YARN
  3. Strata Conference. REEF — Retainable Evaluator Execution Framework
  4. MSDN.ru. Хранение и обработка данных, Big Data, HPC

Новые возможности SQL Server 2012 PDW

Microsoft SQL Server Parallel Data Warehouse (PDW) – программно-аппаратный комплекс для хранения критически важных данных и их параллельной обработки (Massive Parallel Processing, MPP), поставляемый на базе оборудования HP и Dell; является одним из решений Microsoft для обработки «больших данных».

Во вторую версии SQL Server PDW (SQL Server 2012 PDW) внесены значительные оптимизационные изменения аппаратного обеспечения.

PDW2

В частности, в качестве узлов хранения вместо SAN используются более дешевые и плотно упакованные JBOD с прямым подключением SAS-дисков, а поддержка надежности и функциональности осуществляется за счет средств Windows Server 2012. Область выгрузки и узел резервирования выведены из PDW, что дает возможность использования произвольного аппаратного обеспечения, настройки функций высокой доступности и т.д. Контрольный и управляющий узел представлены в виде виртуальных машин и упакованы в один физический сервер.

Административная консоль полностью переработана.

console

Появилось множество нововведений в части программной совместимости: на контрольном и расчетных узлах установлен SQL Server 2012 EE; SQL Server на контрольном узле (Shell Appliance) поддерживает большинство реляционных функций SQL Server; для работы с PDW сейчас можно (и нужно) использовать SQL Server Data Tools (SSDT).

ssdt

Начиная с версии SQL Server 2012 PDW программный комплекс дополнили технологией PolyBase, которая позволяет делать запросы к данным в Hadoop и объединять их с релцяционными данными с использованием стандартных SQL-инструкций. При необходимости результаты запроса можно сохранить как реляционные данные в PDW или направить обратно в Hadoop.

polybase4

Обогащение данных наборами из Windows Azure Marketplace DataMarket

Windows Azure Marketplace – это «онлайн-рынок» для покупки и продажи SaaS-приложений и наборов данных. Здесь можно найти множество данных, включая демографические, финансовые, торговые, телекоммуникационные и прочие отраслевые данные.

marketplace

В настоящее время в Windows Azure Marketplace представлено более 40 провайдеров данных и сотни высококачественных наборов данных (часть из них – бесплатные). В целом здесь содержатся петабайты данных и триллионы значений данных по всему спектру категорий контента.

Использование этих наборов данных позволяет повысить ценность внутреннего набора данных организации за счет его объединения с внешним набором данных.

Давайте посмотрим, как это работает на примере компании, торгующей ценными бумагами. Предположим, архитектор данных собрал информацию о стоимости акций и дивидендах на торговой площадке, а также сделал ее доступной для других участников, используя Windows Azure HDInsight Service и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам. После этого финансовый аналитик может с помощью надстройки Power Query для Excel объединить данные из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Windows Azure Marketplace. После этого мы сможем анализировать данные о стоимости акций и дивидендах в разрезе отраслей.

role2-1

Дополнительно: Анализ «больших данных» для финансового сектора