100% пройдено
30.03
24.04

Competition is over

Добро пожаловать на первое соревнование по Анализу Данных от МТС!
Здесь вы можете проявить себя — решить полезную и важную задачу, выиграть ценные призы, а может быть и присоединиться к нашей Data Science команде. Удачи!

Задача

Можно ли предсказать, где в городе потребуются экстренные службы (полиция/скорая/пожарная/...)? Мы предоставляем геоданные по Москве, в какой день сколько звонков поступало по номеру 112. В этой задаче критически важно пользоваться данными из открытых источников, такими как Open Street Map.

Критерии качества

Обучившись по западной половине Москвы, участники должны предсказать вызовы экстренных служб для восточной половины. Метрика качества предсказаний — коэффициент ранговой корреляции Кендалла (Kendall's tau). Метрика обращает внимание не на точные значения предсказываемого числа звонков, а на их порядок.

Призы

Разгрываем 500 000 ₽! Кроме обычных топ-3 мест, наше жюри также выдаст по 75 000 ₽ за лучший публичный скрипт, а также за лучшую журналистику предоставленных нами данных, которыми нужно делиться на форуме. Награждение пройдет на Data Fest⁵, где помимо прочего, для топ-50 раздадим клевые сувениры!

Данные по звонкам

В таблице zones.csv записаны квадраты, примерный размер — 500х500 метров, все квадраты расположены в Москве, либо на небольшом расстоянии от Москвы. Квадрат задается координатами нижнего левого угла (lat_bl, lon_bl) и верхнего правого (lat_tr, lon_tr). В колонках (lat_c, lon_c) — координаты центра квадрата.

Целевая переменная - суммарное количество вызовов в экстренные службы в каждом квадрате в период с первого сентября по 31 декабря 2017 года.

Квадраты, расположенные в западной части выборки предназначены для обучения модели — для этих квадратов известно среднее число вызовов экстренных служб из квадрата в день:

  • calls_daily - по всем дням;
  • calls_workday - по рабочим дням;
  • calls_weekend - по выходным дням;
  • calls_wd{D} - по дню недели D (0 — понедельник, 6 — воскресенье).

На квадратах из восточной части выборки необходимо построить прогноз числа вызовов по всем дням недели. Оцениваться качество предсказания будет не по всем квадратам, а по подмножеству, в которое не входят квадраты, вызовы из которых поступают крайне редко. Подмножество целевых квадратов имеет is_target=1 в таблице. Для тестовых квадратов значения calls_* и is_target скрыты.

insert_drive_filezones.csv codeрасширенные данные

Внешние данные

Мы подготовили для участников пример работы с открытыми внешними данными Open Street Map, доступный ниже. Также советуем обратить внимание на официальный Github репозиторий соревнования, где можно найти более детальные описания данных и примеры работы с ними.

Для построение прогнозов допускается использование только датасетов из постоянно пополняемого списка, который вы можете найти на форуме. Если вы хотите использовать датасет, не представленный в списке, разместите ссылку на этот датасет на форуме, и датасет будет добавлен в список.

codeOSM tutorial codeGeohack github

Формат решений

В качестве решения необходимо предоставить CSV таблицу с предсказаниями для всех тестовых квадратов, для каждого квадрата — по всем дням недели. Пример файла с тестовыми предсказаниями sample_submission.csv доступен ниже.

Качество оценивается только по подмножеству целевых квадратов. Участникам неизвестно, какие из квадратов целевые, однако принцип выбора целевых квадратов в обучающей и тестовой части — идентичен.

Во время соревнования качество оценивается на 30% тестовых целевых квадратов (выбраны случайно), в конце соревнования итоги подводятся по оставшимся 70% квадратов.

Метрика качества предсказаний — коэффициент ранговой корреляции Кендалла (Kendall's tau). Метрика обращает внимание не на точные значения предсказываемого числа звонков, а на их порядок. Разные дни недели считаются независимыми элементами выборки, т.е. коэффициент корреляции считается по выборке из всех тестовых пар (zone_id, день недели).

В тестирующей системе используется реализация Kendall's tau из пакета SciPy: scipy.stats.kendalltau.

insert_drive_filesample_submission.csv

Дополнительные номинации

Победителей в номинациях за лучшую журналистику данных и лучший публичный скрипт будет определять жюри, состоящее из сотрудников МТС и организаторов соревнования. Своими скриптами и результатами необходимо публично делиться в соответствующих разделах нашего форума.

Результаты дополнительных номинаций будут оглашены 28 апреля на бесплатной конференции Data Fest⁵. Официальная церемония награждения победителей всех номинаций также пройдет 28 апреля.