Обогащение данных наборами из Windows Azure Marketplace DataMarket

Windows Azure Marketplace – это «онлайн-рынок» для покупки и продажи SaaS-приложений и наборов данных. Здесь можно найти множество данных, включая демографические, финансовые, торговые, телекоммуникационные и прочие отраслевые данные.

marketplace

В настоящее время в Windows Azure Marketplace представлено более 40 провайдеров данных и сотни высококачественных наборов данных (часть из них – бесплатные). В целом здесь содержатся петабайты данных и триллионы значений данных по всему спектру категорий контента.

Использование этих наборов данных позволяет повысить ценность внутреннего набора данных организации за счет его объединения с внешним набором данных.

Давайте посмотрим, как это работает на примере компании, торгующей ценными бумагами. Предположим, архитектор данных собрал информацию о стоимости акций и дивидендах на торговой площадке, а также сделал ее доступной для других участников, используя Windows Azure HDInsight Service и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам. После этого финансовый аналитик может с помощью надстройки Power Query для Excel объединить данные из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Windows Azure Marketplace. После этого мы сможем анализировать данные о стоимости акций и дивидендах в разрезе отраслей.

role2-1

Дополнительно: Анализ «больших данных» для финансового сектора

Анализ данных в «реальном времени» с помощью SQL Server StreamInsight

Введение в StreamInsight

StreamInsight является одним из компонентов SQL Server или облачным сервисом Windows Azure для обработки сложных событий (Complex
Event Processing, CEP).

cep

На схеме на оси абсцисс отражена совокупная скорость передачи данных, событий в секунду, а на оси ординат – характерное время задержки при выдаче результата запроса для той или иной задачи.

Цветные области на графике показывают, какие требования существуют у тех или иных приложений к скорости передачи данных и обработки запросов.

Видно, что технология сложной обработки событий предназначена для решения задач с высокой скоростью передачи данных и низкой задержкой.

Особенность технологии состоит в том, что при ее использовании устанавливаются постоянные запросы, на вход которых подается поток постоянно меняющихся данных из различных источников. Благодаря этому результаты постоянных запросов выдаются с близкой к нулю задержкой.

Отраслевые примеры использования StreamInsight

Сложная обработка событий (CEP) может использоваться в следующих отраслях и задачах:

  • финансы – для алгоритмизации торговли и обнаружения мошенничества;
  • телекоммуникации – для мониторинга сети и качества сервиса;
  • производство – для мониторинга материалов (RFID), агрегирования данных от сенсоров и генерация тревоги в случае ошибок;
  • веб-приложения — для анализа трафика сайта и обнаружения нежелательного поведения;
  • здравоохранение – для анализа состояния здоровья пациента;
  • логистика – для прогнозирование и отслеживание цепочки поставок и GPS-трэкинга.

Разумеется, возможно и многие другие примеры применения данной технологии.

Архитектура StreamInsight

Схема платформы обработки сложных событий приведена на следующем рисунке.

cep_platform

Сервер (CEP-движок) постоянно держит в оперативной памяти и обрабатывает постоянные (декларированные) запросы. Эти запросы по виду похожи на T-SQL запросы и могут определенным образом преобразовывать и агрегировать данные со входящих адаптеров. Постоянные запросы могут быть вложены друг в друга, и также могут подтягивать статические данные из традиционных баз данных (SQL Server). На выходе CEP-движка в результате обработки появляются только интересующие нас агрегированные события.

Входящие адаптеры отвечают за передачу событий с источников.

Источниками данных могут выступать различные устройства, сенсоры, веб-сайты и прочие системы, генерирующие события.

Исходящие события, полученные в результате обработки CEP-движком, передаются в выходные (исходящие) адаптеры.

Данные от исходящих адаптеров отражаются целевыми системами, такими как пейджеры, устройства мониторинга, карты ключевых показателей эффективности и диаграммы, а также могут сохраняться в системы хранения событий и базы данных.

Демонстрация. Пример разработки приложения StreamInsight

В качестве примера использования технологии StreamInsight предлагаю вам посмотреть пример приложения анализа трафика на многополосной автомагистрали.

Демонстрация визуализации в портале SharePoint

Аналогичные приложения можно создать непосредственно на портале SharePoint. Пример подобного решения по анализу «реального времени» сообщений в Twitter (по определенным ключевым терминам) есть в Московском технологическом центре Microsoft (MTC Moscow). Снимок экрана – ниже.

twitter-analytics

Дополнительные ресурсы по технологии StreamInsight

Анализ «больших данных» для финансового сектора

Публикую демонстрационный сценарий анализа «больших данных» (Big Data) для компаний финансового сектора. В сценарии будут проанализированы полу-структурированные данные по стоимости акций и дивидендам в разрезе соответствующих отраслей экономики за 30 лет (на основании данных Нью-Йоркской фондовой биржи). Аналогичные задачи могут быть актуальны для участников рынка ценных бумаг включая частных и институциональных инвесторов, таких как пенсионные фонды, банки, страховые компании, а также корпорации, размещающие на рынке собственные ценные бумаги.

В этой демонстрации команда компании, торгующей ценными бумагами, совместно производит анализ данных из Hadoop:

  1. Архитектор данных собирает информацию и делает ее доступной для других участников. Он использует Hadoop в Windows Azure и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам.
  2. Финансовый аналитик анализирует данные по стоимости акций и готовит отчеты для поддержки задач торговли и управления. Она использует надстройку Power Query для Excel для объединения данных из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Azure Marketplace Datamarket. Дополнительно она формирует модель данных Power Pivot и создает примеры отчетов Power View.
  3. Начальник управления ценных бумаг отвечает за формирование предложения по составу портфелей ценных бумаг для клиентов. Он самостоятельно производит изменения в отчеты Power View, полученные от финансового аналитика.

Ниже приведены некоторые снимки экрана из демонстрационного сценария.

role1-rus

role1-1

role1-2

role2-rus

role2-1

role2-2

role3-rus

role3-1

role3-2

 

 

Модель каталога показателей и настройка его согласования в MDS. Часть первая

Для многих организаций актуальна задача ведения каталога показателей и ключевых показателей эффективности (КПЭ), а также обеспечение процесса их согласования различными подразделениями. В этой статье я расскажу, как задачу можно реализовать средствами компонента SQL Server Master Data Services.

Каталог показателей должен содержать все используемые в аналитической модели показатели и описание расчета этих показателей. Все отчеты и информационные панели строятся на основании единой аналитической модели данных, поэтому неоднозначность толкования показателей и споры о том, как корректно их рассчитывать (типичная проблема многих больших организаций), исчезают.

Каталоги показателей присутствуют в инструментах разработки SQL Server Data Tools и SharePoint PerformancePoint Services. Если необходим функционал создания заявок на новые показатели, функции поиска и т.д., можно использовать дополнительные опции. При этом модель каталога показателей может быть представлена следующей схемой.

Модель каталога показателей

Для решения задачи создания заявок, их согласования и фильтрации в каталоге показателей можно использовать компонент SQL Server 2012 Master Data Services (MDS). С помощью компонента можно настроить гибкий процесс согласования каталога показателей. Управление показателями и их поиск (в том числе через фильтрацию значений стандартных атрибутов) можно производить в Excel (каталог открывается с помощью надстройки MDS Add-in).

Гибкий процесс дополнения каталога показателей и утверждения новых показателей можно также настроить в пределах каталога показателей через механизм бизнес-правил. Можно использовать статусы: новый —> согласован подразделением —> согласован ИТ. Для нового показателя должно быть указано подразделение. При возникновении нового показателя ответственным сотрудникам подразделения рассылается нотификация. Послу утверждения подразделением требуется утверждение показателя ИТ-службой.

Интересно, кто-нибудь возьмется в ближайшие дни реализовать данную модель и сделать запись демонстрации? Тогда можно будет продублировать во второй части статьи. У меня на следующей неделе отпуск – скорее всего не успею… 😉

Отображение городов и регионов России на картах в Reporting Services

Ниже приведена последовательность шагов для отображения карт в SSRS.

Шаг 1. Загрузите файл с картами в формате ESRI

Данные по картам мира (в том числе и России) можно загрузить в формате ESRI. с сайта http://www.naturalearthdata.com/downloads

Сайт Natural Earth с картами мира в формате ESRI

Шаг 2. Импортируйте карту в базу SQL Server

Файл с картами в формате ESRI можно загрузить в SQL Server с помощью программы Shape2sql (сайт для загрузки: http://www.sharpgis.net/page/sql-server-2008-spatial-tools.aspx).

Процесс импорта карты в формате ESRI в базу данных SQL Server

Шаг 3. Создайте отчет с помощью SSDT или Report Builder

На данном этапе у вас есть таблица с названиями географических мест и координатами этих областей. Эти данные можно визуализировать в SQL Server Management Studio (SSTD), и, главное, в SQL Server Data Tools (SSDT) или Report Builder.

Отображение пространственных данных в SSMS

Подробнее процесс создания отчета описан в статье Hilmar Buchta Implementing drill-down in a SQL Server 2008R2 Reporting Services Map (Step by Step). Данные показателей можно взять из другой таблицы и объединить с таблицей карт по названию географического места.

См. также вебкаст Андрея Коршикова, в котором показан процесс создания карты в SSRS.

Визуализация данных на 3D-карте с помощью Power Map (GeoFlow) для Excel

Последнее изменение: 28.04.2015

В Excel появилась возможность отображения множества слоев данных на трехмерной карте с помощью надстройки Power Map (GeoFlow) для Excel (надстройка доступна для загрузки с сайта Microsoft).

Надстройка позволяет пользователям самостоятельно настраивать несколько слоев отображения данных (до миллиона строк) на трехмерной карте, включать и выключать эти слои, настраивать вариант визуализации слоев в виде столбцов данных, окружностей, цветовых карт, а также просматривать как данные менялись с течением времени.

Отображение данных на трехмерной (3D) карте Bing

Еще одна возможность инструмента – возможность записи последовательности переходов по карте и включения/выключения слоев данных с целью последующей демонстрации.

Настройка последовательности демонстрации – в левой части экрана

Ниже приведена демонстрация работы с подготовленной картой GeoFlow, а затем показано как можно добавлять слои данных (скачать исходный Excel-файл можно здесь).

Замечание. Если актуальна задача использования многослойных карт на портале SharePoint (на момент последнего изменения данной страницы Power Map ), можно использовать партнерские решения: ArcGIS или ADV Solutions Visual Fusion.

Дополнительные материалы:

  1. Инсталляционный файл и начальные инструкции по работе с GeoFlow.
  2. Ренат Лотфуллин. Визуализация географических данных с помощью надстройки GeoFlow.
  3. Introduction to Excel GeoFlow (Beta 1)
  4. Руководство по установке и 5 файлов с исходными данными (на английском)
  5. Microsoft’s GeoFlow Lets Spreadsheet Jockeys Tell Stories with Maps (в начале статьи есть несколько интересных примеров визуализации; на английском)

Конструктор аналитических решений Microsoft BI

В случае, если вашей организации необходимо спланировать внедрение или расширение существующего аналитического решения на базе Microsoft BI, вам может быть очень полезен сайт www.bisolutionbuilder.com. Веб-приложение на сайте позволяет вам указать уже внедренные в организации решения и требуемые аналитические возможности, чтобы понять, какие продукты нужно дополнительно приобрести и внедрить с целью получения целевого решения.

Чтобы воспользоваться сервисом, потребуется указать некоторые базовые сведения о вашей компании или организации.

На первом этапе необходимо указать уже приобретенные продукты (например, на снимке экрана справа внизу выбраны SharePoint 2010 Enterprise и Office 2007 Professional без договора Enterprise Agreement).

BI Solutions Builder. Первый шаг – выбор имеющихся продуктов. Источник: www.bisolutionbuilder.com

На втором этапе необходимо указать требуемые возможности из списка: Predictive Analytics, In-Memory BI, Self-Service BI — End User Analysis, Self-Service BI — Governance and Control, Geospatial Data Visualization, Big Data Analytics, Dashboards and Scorecards, eDiscovery Capability, Collaboration, Cloud-Based Reporting Services, Cloud-Based Data Synchronization, Hadoop Integration, Cloud Storage, Data Warehousing, Analysis Services – OLAP, Power View Visualization, Data Driven Diagrams, Modeling and BI Development, Operational Reporting, Mobile BI.

BI Solutions Builder. Второй шаг – выбор целевых возможностей. Источник: www.bisolutionbuilder.com

На третьем этапе автоматически формируется отчет с описанием имеющихся продуктов, желаемых возможностей, вариантами обновления с указанием продуктов и соответствующих возможностей, ресурсы по этим возможностям, информация о программно-аппаратных комплексах, ресурсы по отрасли, примерам внедрения и BI-инструментам.

BI Solutions Builder. Третий шаг – просмотр сгенерированного отчета. Источник: www.bisolutionbuilder.com