Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Мария Ревякина. Неравный бой Мария Ревякина. Неравный бой

Интервью с директором Театра Наций Марией Ревякиной

СНОБ
Женщина 20 лет не убирала в доме, но он оставался чистым. Почему? Женщина 20 лет не убирала в доме, но он оставался чистым. Почему?

Думаете, дом, который не убирался больше 20 лет был похож на свалку?

Популярная механика
Это продлит тебе годы: 9 полезных пищевых привычек от долгожителей Это продлит тебе годы: 9 полезных пищевых привычек от долгожителей

9 полезных правил, которые помогут прожить дольше

Playboy
«На мне Fendi, смотри»: как TikTok меняет моду «На мне Fendi, смотри»: как TikTok меняет моду

Как TikTok меняет моду, шоппинг и общество

РБК
Итоги в гейм-индустрии: главные тренды и 5 лучших игр 2020 года Итоги в гейм-индустрии: главные тренды и 5 лучших игр 2020 года

5 самых примечательных видеоигр 2020 года

Esquire
Задача с тремя известными Задача с тремя известными

Интервью с режиссером Анной Меликян

OK!
Как дома Как дома

Лобби жилого комплекса «Софийский» в стиле неоклассицизма

SALON-Interior
#улыбка #улыбка

Средства, которые заботятся о ваших зубах, а некоторые — еще и о нашей планете

Glamour
Наталья Ветошникова Наталья Ветошникова

99-летняя теннисистка собрала все возможные трофеи Ленинграда

Собака.ru
Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack

Как развивается одна из самых успешных компаний на рынке облачного ПО

VC.RU
7 самых странных вещей, упавших с неба: дождь из рептилий и зеленый метеор 7 самых странных вещей, упавших с неба: дождь из рептилий и зеленый метеор

Иногда с неба падают самые необычные и загадочные предметы

Популярная механика
«Судебник Владимира Гусева» и держава Ивана III «Судебник Владимира Гусева» и держава Ивана III

История судебника Ивана III

Наука и жизнь
История первого задокументированного ранения человека внеземным объектом История первого задокументированного ранения человека внеземным объектом

И Земля даже не ввела контрсанкции против космоса!

Maxim
Как записать подкаст дома Как записать подкаст дома

На случай, если в новом году вы захотите стать звездой собственного аудио-шоу

GQ
Я — легенда Я — легенда

Ретроспективная вилла в Лос-Анджелесе

SALON-Interior
Доигрались! Доигрались!

Чему и как учит Mobalytics?

Playboy
Читаем на английском: 5 книг для начинающих (и полезные советы, чтобы не бросить) Читаем на английском: 5 книг для начинающих (и полезные советы, чтобы не бросить)

Что читать и как читать на английском

Esquire
Исследование: российский венчурный рынок вырос почти вдвое в 2020 году — до 21,9 млрд рублей Исследование: российский венчурный рынок вырос почти вдвое в 2020 году — до 21,9 млрд рублей

По данным РВК и PwC за полгода, рынок сократился — всё дело в методе подсчёта

VC.RU
Зачем Россия спасает Никола Пашиняна Зачем Россия спасает Никола Пашиняна

Москва не хочет исправлять ошибки своей политики на постсоветском пространстве

СНОБ
Чем занимается Хабиб Нурмагомедов после завершения карьеры бойца Чем занимается Хабиб Нурмагомедов после завершения карьеры бойца

Хабиб Нурмагомедов рассказал, что может сподвигнуть его вернуться в октагон

GQ
Во имя отца и сына. На Netflix вышел «Манк» — ревизия «Гражданина Кейна» от режиссера Дэвида Финчера и сценариста Джека Финчера, его отца Во имя отца и сына. На Netflix вышел «Манк» — ревизия «Гражданина Кейна» от режиссера Дэвида Финчера и сценариста Джека Финчера, его отца

«Манк» — новый фильм Дэвида Финчера, который обязательно войдет в историю

Esquire
Александр Вольтман и Алексей Никульшин Александр Вольтман и Алексей Никульшин

Холсты Ильи Гапонова, пижамы Dries Van Noten и портниха из МВД

Собака.ru
Дизайн служения Дизайн служения

Латвия славится особым подходом к дизайну — осознанным, смелым

Seasons of life
Бунтарь поневоле Бунтарь поневоле

Александр Горчилин о том, как далек от образов, в которых его привыкли видеть

OK!
Орангутаны заразились зевотой от сородичей Орангутаны заразились зевотой от сородичей

Орангутаны могут заражать друг друга зевотой

N+1
В команде с врагом В команде с врагом

Как работать с теми, кого вы недолюбливаете

kiozk originals
Европейцы отказали искусственному интеллекту в праве убивать людей Европейцы отказали искусственному интеллекту в праве убивать людей

Решение об использовании вооружения должен принимать человек

N+1
Рентгеновские снимки Ника Визи: автобусы и трактора в рентгене Рентгеновские снимки Ника Визи: автобусы и трактора в рентгене

Фотограф Ник Визи превратил рентгеновские снимки в искусство

Популярная механика
7 образов Валентина Гафта в кино 7 образов Валентина Гафта в кино

Вспоминаем самых стильных героев Валентина Гафта

GQ
Открыть в приложении