100% пройдено
15.12
15.12

Соревнование окончено

Задачи

Участникам будут предложены 4 задания по NLP:
1. Классификация интентов
2. Исправление орфографических ошибок
3. Предсказание оценок в чатах
4. Обнаружение фальсификации телефонной статистики
Требуется построить алгоритмы, которые для заданий 1, 3 и 4 будут решать задачу классификации, для задачи 2 – возвращать для каждого предложения исправленное.

 Набор данных для задачи

Критерии качества

Решения принимаются в формате docker-контейнеров. Метрики качества решений задач 1, 3 и 4 - F1-score, для задачи 2 – также F1-score, но с увеличенными штрафными коэффициентами: за пропуск ошибки штраф увеличивается вдвое (FN с коэффициентом 2), за ложную детекцию – в 30 раз (FP с коэффициентом 30).

Призы

Призовой фонд - 500 000 ₽. Разрешены команды до 4 человек, со всего мира и любого возраста. Команда, занявшее первое место, получит 250 000 ₽, второе место - 150 000 ₽, третье место - 100 000 ₽.

Победители определяются по суммарной метрике со всех 4 заданий соревнования.

 Памятка для участников

Описание заданий:

1. Классификация интентов

Интент запроса – это намерение пользователя, цель его обращения к некоторой поисковой системе. Например, в случае с технической поддержкой классификация интентов может помочь автоматически кластеризовать запросы по их тематикам для формирования ответа, либо быстрого перенаправления к нужным специалистам.

2. Исправление орфографических ошибок

Полезная задача для собственной проверки правописания, и для исправления возможных опечаток пользователей, к примеру, при обращениях к чат-ботам.

3. Предсказание оценок в чатах

В данной задаче предлагается найти корреляцию между ответами специалистов технической поддержки в чатах и их итоговыми оценками, выставленными пользователями.

4. Обнаружение фальсификации телефонной статистики

Недобросовестные операторы иногда пытаются фальсифицировать статистику звонков своих колл-центров. Ключевой показатель, который стремятся подделать – продолжительность звонка в секундах. Предлагается попытаться определить истинную природу появления цифр в отчётах.

Данные

Полное описание данных, а также сами данные для тренировки моделей будут предоставлены участникам на очном мероприятии в МГУ.

Формат решений

Полное описание формата и примеров корректных решений будет предоставлено участникам на очном мероприятии в МГУ.

codegithub insert_drive_filesample_submission.csv

Инфопартнёры