50% пройдено
29.09
11.11

До конца: 21 дней

Задача

Сталкивались с дурацкими опечатками? С ними можно справиться с помощью машинного обучения! Мы приглашаем вас поучаствовать в соревновании алгоритмов, определяющих корректность введённых ФИО и предлагающих, как можно исправить найденные опечатки.

Критерии качества

Соревнование включает в себя две задачи: определение корректности введённых ФИО (классификация на 3 класса) и исправление опечаток во введённых ФИО (только при наличии опечаток). Итоговая метрика - среднее из качеств решения обеих задач (Accuracy и F1_macro).

Призы

Призовой фонд - 300 000 ₽! Разрешены команды до 4 человек, со всего мира. Команда, занявшая первое место, получит 150 000 ₽, второе место 100 000 ₽, и третье место 50 000 ₽. Награждение и разбор решений победителей пройдут на ML тренировке в Новосибирске 17 ноября!

Данные

Для обучения моделей предоставляется обучающая выборка, содержащая следующие колонки:

  • id - идендификатор (несёт вспомогательную роль);
  • fullname - исходное ФИО из анкеты (может не иметь отчества);
  • country - страна из анкеты;
  • target - целевая переменная;
  • fullname_true - исправленное ФИО (присутствует только в строках с классом "есть опечатки")..

Для оценки качества предоставляется тестовая выборка, в которой колонки target и fullname_true отсутствуют.

Данные для соревнования являются синтетическими. Они были получены в результате моделирования путем замены наиболее часто встречающихся фамилий имен и отчеств в различных странах, а также добавления часто встречающихся паттерном опечаток.

Любые совпадения с реальными ФИО являются случайными. Разметка осуществлялась людьми и может иметь некорректно размеченные ФИО.

Участникам разрешено пользоваться только датасетами из постоянно пополняемого списка, который вы можете найти на форуме. Если вы хотите использовать датасет, не представленный в списке, разместите ссылку на этот датасет на форуме, и датасет будет добавлен в список.

insert_drive_filetrain.csv insert_drive_filetest.csv

Формат решений

В проверяющую систему необходимо отправить файл с предсказаниями в формате csv, содержащий следующие колонки: id; target; fullname_true (можно не заполнять для строк с предсказаниями класса, отличного от "есть опечатки").

Участникам также предоставляется пример корректного тестового файла, а также baseline решение от организаторов.

insert_drive_filesample_submission.csv codebaseline

Система оценки

Для задачи определения корректности введённых ФИО целевая метрика: F1 с макроусреднением.

Для задачи исправления опечаток, считается точность (доля правильно исправленных ФИО). Подсчёт ведётся только на объектах класса "есть опечатки", при этом корректно исправленная опечатка требует предсказание наличия опечаток (то есть требуется и предсказать класс "есть опечатки", и правильно исправить ФИО).

Итоговый результат вычисляется как среднее арифметическое метрик каждой из задач. Участникам предоставляется репозиторий с расширенным описанием задачи от организаторов и код для расчета метрики соревнования.

codegithub codeметрика