Регистрация на Хакатон по Azure ML

21-22 мая 2016 года пройдет очередная практическая конференция «Хакатон по Azure Machine Learning».

В течение двух дней Вы будете работать над:

  • прогнозированием остатков и оборота по кредитным картам клиентов одного из крупнейших банков;
  • решением реальных бизнес-задач других компаний.

У Вас будет уникальная возможность:

  • попробовать создать и развернуть аналитическое решение с помощью облачной службы машинного обучения Azure Machine Learning;
  • научиться применять R, Python или .NET в задачах машинного обучения с Azure ML;
  • обработать и визуализировать данные с помощью сервиса облачной аналитики Power BI.

Лучшие проекты получат ценные призы: смартфоны Nokia Lumia 640 и Nokia Lumia 930.

Место проведения: Москва, офис Майкрософт. ул. Крылатская 17/1

Стоимость участия: бесплатно.

Ссылка для регистрации

hackathon-ml

10.03.2016. Презентация платформы данных на базе SQL Server 2016

10 марта 2016 года состоится онлайн-трансляция мероприятия из Нью-Йорка, в рамках которого генеральный директор Microsoft Сатья Наделла и другие руководители корпорации презентуют новый SQL Server 2016 и расскажут о том, как с помощью анализа данных компании трансформируют свой бизнес и отрасль в целом.

У вас есть также возможность принять очное участие в презентации платформы управления данными на базе SQL Server 2016, которая пройдет 10 марта в 7 офисах Microsoft:

sql2016pres

Обновление (11.03.2016): запись события на русском языке доступна по ссылке.

02.03.2016. Встреча Advanced Analytics User Group

Приглашаем Вас принять участие во встрече Advanced Analytics User Group по теме «Предварительный анализ и очистка данных. Отбор и создание признаков», которая пройдет 2-го марта в Microsoft Technology Сenter.

Предварительная обработка является важным этапом, позволяющим повысить качество данных, а следовательно, эффективность обучения и, следовательно, точность предсказания. На данной встрече мы разберем, как в Azure ML:

  • осуществлять предварительный анализ данных и пользоваться описательной статистикой
  • отфильтровывать или исправлять поврежденные данные
  • работать с неполными данными и «аутсайдерами»
  • создавать новые признаки, оценивать «полезность» признаков и преобразовывать их.

Вышеперечисленные возможности будут рассмотрены на примере заданий первого и второго Хакатона с использованием встроенных блоков (SQL Transformation и другие), а также с помощью блоков R script и Python script.

Для того, чтобы принять участие в мероприятии, пожалуйста, зарегистрируйтесь по ссылке.

Дата: 2 марта 2016 г
Время: 17.00-20.00
Место проведения: МТС, ул. Лесная, 9 «Деловой Центр Белые Сады», 5-й этаж, аудитория «Патриаршие пруды»
Язык встречи: русский
Докладчик: Алексей Пешехонов

rubi-aa

Регистрация на Хакатон по Azure Machine Learning

28-29 ноября 2015 года пройдет практическая конференция «Хакатон по Azure Machine Learning». Конференция рассчитана на разработчиков и людей, понимающих математические модели, которые хотят научиться или продемонстрировать свои умения:

  • разрабатывать на R или Python;
  • анализировать и готовить данные к обработке;
  • показывать результаты в понятном виде.

В течение двух дней на конференции можно будет поработать над решением практических задач от партнёров Microsoft. При наличии вопросов можно будет посоветоваться с экспертами Microsoft и техническими специалистами MVP.

Место проведения: Москва / Санкт-Петербург / Краснодар / Казань / Екатеринбург / Новосибирск.

Начало регистрации и сбор участников в 10:00. Начало мероприятия в 11:00.

Стоимость участия: бесплатно.

Ссылка для регистрации

hackathon-ml

Трансляция докладов SQL Saturday

Приглашаем Вас завтра на online-трансляцию технологического субботника SQLSaturday, которая пройдет 17 октября 2015 г. с 10.00 до 18.00 (МСК).

Подключайтесь к трансляции

sqlsaturday
У Вас будет уникальный шанс прослушать почти два десятка докладов по ключевым темам платформы управления данными от признанных экспертов индустрии, включая:

  • Особенности практического применения In-Memory OLTP в SQL Server 2014.
  • Примеры использования AlwaysOn для обеспечения катастрофоустойчивости приложений MS.
  • Принципы и методика консолидации серверов БД MS SQL Server на предприятии.
  • Мобильная бизнес-аналитика: Datazen и Power BI.
  • Обзор сценариев использования продвинутой аналитики (Azure ML).

И, конечно же, мы приоткроем завесу над SQL Server 2016, представив его революционные технологии, устанавливающие новые стандарты в области хранения, обработки и визуализации данных.

Дополнительная информация и полная программа доступны на сайте мероприятия.

Задание по Azure ML для участников конференции Хакатон 2015

Необходимо решить всего две задачи: первую — обязательно, и одну из задач (вторую или третью) — на выбор. Если получится сделать три задачи еще лучше!

Вопросы к заданию и отзывы по функциональности Azure ML можно также писать в этом блоге (в комментариях).

Параметры подключения к данным

Параметры подключения к данным заданий для конференции Hackathon 2015 ML приведены ниже. Это Blob Storage, к которому можно обратиться через Reader в рамках эксперимента Azure ML.

STORAGE ACCOUNT NAME: hackathon2015ml

PRIMARY ACCESS KEY (нужно объединить символы в одну строку):

ZD/Ad7agUVGkYay2hoLE6saxvJGum8hAmWj42QKh87sOz 8VGMwpXR4bdyZR842lsijFjCPfnrzq55DarQ/VMZw==

Задание 1. Предсказание выплат по авариям

Предсказать маленькая или большая сумма выплаты при попадания водителя в аварию (исходя из имеющейся информации: штрафы, марки авто). Прогнозируем значение колонки «Возмещено» (1 — мало выплат по авариям, 2 — много выплат по авариям). Модель должна предсказывать значение поля «Возмещено» для всех строк набора данных.

Исходные файлы:

  • 5wheel/auto-insurance-train.csv (для обучения модели)
  • 5wheel/auto-insurance-task.csv (проверочный набор при оценке модели — для информации)

Замечание. В первый набор данных искусственно внесли зависимости, так как для решения реальной задачи в исходном наборе данных было недостаточно информации. Цель первого задания — оценить стандатные средства Azure ML для обнаружения сильных зависимостей в простом наборе данных.

Для участников с продвинутой моделью подготовили дополнительный набор данных (без внесенной зависимости). Если интересно, можете попробовать свою модель на данном наборе: 5wheel/auto-insurance-2-… Если есть значимый результат, высылайте и этот график.

Критерий оценки: точность предсказания на проверочном наборе данных (…-task) при сопоставлении с реальным значением прогнозируемой колонки «Возмещено». Первичный критерий — максимизация значения показателя AUC. Вторичный критерий — плавность графика ROC.

evaluate

Публикация результатов задания 1 для оценки жюри: выслать снимок экрана с графиком ROC и значением AUC на следующие Live ID: Ivan.Kosyakov@live.com, Yuri.A.Popov@hotmail.com, prootq@xakep.ru, AAChizhova@gmail.com. Графический файл необходимо назвать «Auto Insurance Trained Model ##«, где ## — номер команды.

При формировании графика нужно использовать файл 5wheel/auto-insurance-check.csv.

Наиболее точную модель потом отдельно посмотрим — как она настроена в Azure ML.

evaluate-viz

Задание 2. Товары по поисковым запросам

По тексту поискового запроса, названию товара, описанию товара предсказать наиболее релевантный порядок отображения результатов поиска (товары, на которые пользователь кликнет с большей вероятностью). Предсказать нужно колонку «Clicks». Предсказывать в виде диапазонов или конкретных значений — на ваше усмотрение. То есть товар могут купить на любом уровне иерархии (он может попасть в любую категорию).

Критерий оценки: первый приоритет — значение показателя RMSE; второй приоритет — качество обоснования и реализации модели.

Исходные файлы:

  • ozon/ozon-search-rus-train.csv
  • ozon/ozon-search-rus-task.csv (проверочный набор данных для оценки точности модели)

Публикация результатов задания 2 для оценки жюри: необходимо выслать параметры доступа к набору данных с предсказанием на следующие адреса: Ivan.Kosyakov@live.com, Yuri.A.Popov@hotmail.com, prootq@xakep.ru, AAChizhova@gmail.com. Имя файла: ozon/ozon-search-rus-task-##.csv, где ## — номер команды.

Задание 3. Прогнозирование спроса на товары

Необходимо по истории за 5 недель предсказать сколько будет куплено товаров через неделю за неделю. Каждый товар лежит в нескольких каталогах, ID товаров и каталогов хэшированы. Набор данных собран в день расчета прогноза. Будем называть его сегодняшним днем.

  • pv_last_1w — (product views) просмотры товара за прошедшую неделю [today — 7, today]
  • pv_last_2w — просмотры товара за прошедшие 2 недели [today — 14, today]
  • ca_last_1w — (cart additions) добавления товара в корзину за прошедшую неделю [today — 7, today]

Предсказать необходимо колонку ca_future_1w_after_1w — сколько товаров положили в корзину через неделю от сегодняшнего дня на протяжении недели, т.е. покупки за период [today + 7, today + 14]. Прогнозирование с запаздыванием из-за задержки поставщиков в 7 дней. Проверять предсказание модели будем по набору данных с другими товарами. Есть предположение, что категория товара при этом может повлиять на тенденцию приобретения клиенами.

Критерий оценки: первый приоритет — значение показателя RMSE; второй приоритет — качество обоснования и реализации модели.

Исходные наборы данных:

  • ozon/ozon-demand-train.csv (для обучения модели)
  • ozon/ozon-demand-task.csv (проверочный набор данных для оценки точности модели)

Комментарий по наборам данных Наборы данных …-test — для обучения вашей модели. На наборах …-task будет тестироваться качество работы алгоритма.

Публикация результатов задания 3 для оценки жюри: необходимо выслать параметры доступа к набору данных с предсказанием на следующие адреса: Ivan.Kosyakov@live.com, Yuri.A.Popov@hotmail.com, prootq@xakep.ru, AAChizhova@gmail.com. Имя файла: ozon/ozon-demand-task-##.csv, где ## — номер команды.

Как подключать набор данных?

На портале http://portal.windowsazure.com подклаемся под своим live ID (связанным предварительно с подпиской). В левой части выбираем Azure Machine Learning (символ пробирки), подключаемся в Azure ML Studio. В Azure ML Studio создать новый эксперимент. В эксперименте из панели инструментов слева перетащить Reader, и в нем настроить параметры подключения к файлу.

reader

Полезные ссылки:

Записи ключевых докладов PASS Business Analytics Conference

Доступны записи ключевых докладов (на английском языке) PASS Business Analytics Conference, проходившей 7-9 мая 2014 года в США (штат Калифорния, Сан Хосе):