Интеллектуальный анализ ценности акций

В качестве расширения сценария анализа «больших данных» для финансового сектора выкладываю демонстрацию интеллектуального анализа данных (предсказательной аналитики) на основе сформированного набора данных. В сценарии создается обобщенный показатель оценки стоимости акций компаний с учетом дивидендов, а производится попытка выявления значений атрибутов, влияющих на стабильно высокий рост ценности акций.

Предсказательный анализ данных по здравоохранению

Начинаю публиковать сценарии, которые не удалось показать в полном объеме на «Дне платформы Microsoft».

В этой демонстрации показано использование движка интеллектуального анализа данных SQL Server (SSAS Data Mining) и надстройку интеллектуального анализа для Excel с целью анализа некоторых данных статистического сборника Росстата по здравоохранению. Анализируется влияние различных факторов на низкий и высокий уровень смертности в регионах (субъектах РФ).

В настоящее время ведутся работы по расширению представленной модели данных. Буду благодарен за любые идеи по ее расширению.

Следует также обратить внимание, что потенциально возможны неточности при сборке и интерпретации данных. Буду благодарен за любые исправления.

Анализ данных в «реальном времени» с помощью SQL Server StreamInsight

Введение в StreamInsight

StreamInsight является одним из компонентов SQL Server или облачным сервисом Windows Azure для обработки сложных событий (Complex
Event Processing, CEP).

cep

На схеме на оси абсцисс отражена совокупная скорость передачи данных, событий в секунду, а на оси ординат – характерное время задержки при выдаче результата запроса для той или иной задачи.

Цветные области на графике показывают, какие требования существуют у тех или иных приложений к скорости передачи данных и обработки запросов.

Видно, что технология сложной обработки событий предназначена для решения задач с высокой скоростью передачи данных и низкой задержкой.

Особенность технологии состоит в том, что при ее использовании устанавливаются постоянные запросы, на вход которых подается поток постоянно меняющихся данных из различных источников. Благодаря этому результаты постоянных запросов выдаются с близкой к нулю задержкой.

Отраслевые примеры использования StreamInsight

Сложная обработка событий (CEP) может использоваться в следующих отраслях и задачах:

  • финансы – для алгоритмизации торговли и обнаружения мошенничества;
  • телекоммуникации – для мониторинга сети и качества сервиса;
  • производство – для мониторинга материалов (RFID), агрегирования данных от сенсоров и генерация тревоги в случае ошибок;
  • веб-приложения — для анализа трафика сайта и обнаружения нежелательного поведения;
  • здравоохранение – для анализа состояния здоровья пациента;
  • логистика – для прогнозирование и отслеживание цепочки поставок и GPS-трэкинга.

Разумеется, возможно и многие другие примеры применения данной технологии.

Архитектура StreamInsight

Схема платформы обработки сложных событий приведена на следующем рисунке.

cep_platform

Сервер (CEP-движок) постоянно держит в оперативной памяти и обрабатывает постоянные (декларированные) запросы. Эти запросы по виду похожи на T-SQL запросы и могут определенным образом преобразовывать и агрегировать данные со входящих адаптеров. Постоянные запросы могут быть вложены друг в друга, и также могут подтягивать статические данные из традиционных баз данных (SQL Server). На выходе CEP-движка в результате обработки появляются только интересующие нас агрегированные события.

Входящие адаптеры отвечают за передачу событий с источников.

Источниками данных могут выступать различные устройства, сенсоры, веб-сайты и прочие системы, генерирующие события.

Исходящие события, полученные в результате обработки CEP-движком, передаются в выходные (исходящие) адаптеры.

Данные от исходящих адаптеров отражаются целевыми системами, такими как пейджеры, устройства мониторинга, карты ключевых показателей эффективности и диаграммы, а также могут сохраняться в системы хранения событий и базы данных.

Демонстрация. Пример разработки приложения StreamInsight

В качестве примера использования технологии StreamInsight предлагаю вам посмотреть пример приложения анализа трафика на многополосной автомагистрали.

Демонстрация визуализации в портале SharePoint

Аналогичные приложения можно создать непосредственно на портале SharePoint. Пример подобного решения по анализу «реального времени» сообщений в Twitter (по определенным ключевым терминам) есть в Московском технологическом центре Microsoft (MTC Moscow). Снимок экрана – ниже.

twitter-analytics

Дополнительные ресурсы по технологии StreamInsight

Доклад о SQL Server Data Quality Services от 18 декабря 2013

Вот и начала приносить плоды организованная Андреем Коршиковым Russian Virtual PASS Chapter. Первый доклад по BI-тематике посвящен сервису SQL Server Data Quality Services (DQS) — одному из главных механизмов нормализации данных, удаления дубликатов и наполнения базы знаний.

В докладе рассказывается о новых контролах DQS Domain Value Import и DQS Matching Transformation. Важный акцент сделан на автоматизацию процесса импорта доменных сущностей, включая синонимы, в существующую базу знаний, а так же использование механизма удаления дубликатов, полагаясь на возвращаемые весовые коэффициенты между каждым набором сравниваемых записей. В результате будет создан SSIS пакет в котором будет реализован весь процесс получения качественных данных.

Докладчик: Константин Хомяков (MVP SQL Server) специализируется в Microsoft Business Inteligence: разработка SSIS пакетов, построение кубов и анализ данных в SSAS. Последние несколько лет занимается интеграцией данных.

Запись: загрузить файл

Анализ «больших данных» для финансового сектора

Публикую демонстрационный сценарий анализа «больших данных» (Big Data) для компаний финансового сектора. В сценарии будут проанализированы полу-структурированные данные по стоимости акций и дивидендам в разрезе соответствующих отраслей экономики за 30 лет (на основании данных Нью-Йоркской фондовой биржи). Аналогичные задачи могут быть актуальны для участников рынка ценных бумаг включая частных и институциональных инвесторов, таких как пенсионные фонды, банки, страховые компании, а также корпорации, размещающие на рынке собственные ценные бумаги.

В этой демонстрации команда компании, торгующей ценными бумагами, совместно производит анализ данных из Hadoop:

  1. Архитектор данных собирает информацию и делает ее доступной для других участников. Он использует Hadoop в Windows Azure и запросы Hive для агрегирования (укрупнения) стоимости акций и дивидендов по годам.
  2. Финансовый аналитик анализирует данные по стоимости акций и готовит отчеты для поддержки задач торговли и управления. Она использует надстройку Power Query для Excel для объединения данных из Hadoop с дополнительным набором данных по 500 наиболее крупным компаниям из Azure Marketplace Datamarket. Дополнительно она формирует модель данных Power Pivot и создает примеры отчетов Power View.
  3. Начальник управления ценных бумаг отвечает за формирование предложения по составу портфелей ценных бумаг для клиентов. Он самостоятельно производит изменения в отчеты Power View, полученные от финансового аналитика.

Ниже приведены некоторые снимки экрана из демонстрационного сценария.

role1-rus

role1-1

role1-2

role2-rus

role2-1

role2-2

role3-rus

role3-1

role3-2

 

 

Демонстрация аналитики для здравоохранения – Часть 3

В третьей части демонстрационного сценария главный врач клиники производит (в Excel на основании аналитической модели PowerPivot) анализ деятельности по лечению сердечно-сосудистых заболеваний. Анализируется общая информация о деятельности клиники по данному направлению (поступление клиентов, стоимость лечения, заявки, дни пребывания, лучшие и худшие процедуры по длительности), детализируется информация об использовании ресурсов клиники с уровня типов процедур до уровня поступлений (количество поступлений, дней лечения, сравнение со средним количеством дней лечения по отрасли, стоимость лечения), интерактивный анализ соотношения количества дней лечения и использования ресурсов клиники, анализ географии расположения клиентов клиники.

Третья часть демонстрационного сценария с участием главного врача клиники. Источник: Microsoft

Подробнее: Microsoft BI для здравоохранения (сети клиник)

Демонстрация аналитики для здравоохранения — Часть 2

Во второй части демонстрационного сценария по здравоохранению финансовый директор сети клиник анализирует информацию о влиянии прибыльности в зависимости от задержек проведения операций в разрезе лечебных учреждений и докторов, доходы и себестоимость, количество процедур разного типа в разрезе докторов и подразделений, а меняет отчет Power View, чтобы проанализировать прибыльность не только в разрезе докторов, но и в разрезе типов процедур.

Задачи финансового директора сети клиник в демонстрационном примере. Источник: Microsoft

Подробнее: Microsoft BI для здравоохранения (сети клиник)

Визуализация маршрутов в Power Map (GeoFlow) для Excel (на примере битумного рынка)

Продолжаю публиковать сценарии использования Power Map (GeoFlow) для Excel по визуализации данных битумного рынка на трехмерной географической карте.

Визуализация маршрутов в GeoFlow для Excel (на примере битумного рынка). Источник: Павел Аникеев, “ОМТ-Консалт”)

В этой демонстрации Павел Аникеев (директор аналитического центра группы компании “ОМТ-Консалт”) в том числе показывает, как можно визуализировать маршруты от нефтеперерабатывающих заводов, производящих битум, до регионов с возможностью фильтрации по заводу и региону.

Детали реализации маршрутов. Для отображения маршрутов каждому отрезку в Excel приписывается объем. В итоге точки на каждом отрезке светятся соответственно объему поставки. Павел Аникеев реализовал в Excel программу, где задается любая координата на карте РФ, а дальше формируется база из маршрутов от этой точки до административных центров.

Визуализация битумного рынка с помощью Excel и Power Map (GeoFlow)

В следующей демонстрации показан сценарий анализа битумного рынка с помощью Power Map (GeoFlow) для Excel (и сенсорного экрана). Сценарий создан и записан Павлом Аникеевым — директором аналитического центра группы компании «ОМТ-Консалт».

Дополнительные материалы:

Визуализация данных на 3D-карте с помощью Power Map (GeoFlow) для Excel

Последнее изменение: 28.04.2015

В Excel появилась возможность отображения множества слоев данных на трехмерной карте с помощью надстройки Power Map (GeoFlow) для Excel (надстройка доступна для загрузки с сайта Microsoft).

Надстройка позволяет пользователям самостоятельно настраивать несколько слоев отображения данных (до миллиона строк) на трехмерной карте, включать и выключать эти слои, настраивать вариант визуализации слоев в виде столбцов данных, окружностей, цветовых карт, а также просматривать как данные менялись с течением времени.

Отображение данных на трехмерной (3D) карте Bing

Еще одна возможность инструмента – возможность записи последовательности переходов по карте и включения/выключения слоев данных с целью последующей демонстрации.

Настройка последовательности демонстрации – в левой части экрана

Ниже приведена демонстрация работы с подготовленной картой GeoFlow, а затем показано как можно добавлять слои данных (скачать исходный Excel-файл можно здесь).

Замечание. Если актуальна задача использования многослойных карт на портале SharePoint (на момент последнего изменения данной страницы Power Map ), можно использовать партнерские решения: ArcGIS или ADV Solutions Visual Fusion.

Дополнительные материалы:

  1. Инсталляционный файл и начальные инструкции по работе с GeoFlow.
  2. Ренат Лотфуллин. Визуализация географических данных с помощью надстройки GeoFlow.
  3. Introduction to Excel GeoFlow (Beta 1)
  4. Руководство по установке и 5 файлов с исходными данными (на английском)
  5. Microsoft’s GeoFlow Lets Spreadsheet Jockeys Tell Stories with Maps (в начале статьи есть несколько интересных примеров визуализации; на английском)