Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Правила жизни Тайгера Вудса Правила жизни Тайгера Вудса

Правила жизни великого гольфиста Тайгера Вудса

Esquire
Наполеон: в императоры из республиканца Наполеон: в императоры из республиканца

Диктатура Наполеона слишком изменила и страну, и народ

Дилетант
Приманка для молодых талантов. Первый тест-драйв родстера «Крым» Приманка для молодых талантов. Первый тест-драйв родстера «Крым»

Публика уже не верит в очередной автомобильный стартап из России

РБК
Полина Лазарева: «Не теряю надежды, что рано или поздно мне встретится хороший человек, с которым буду счастлива» Полина Лазарева: «Не теряю надежды, что рано или поздно мне встретится хороший человек, с которым буду счастлива»

«Все детство меня пугали, как ужасна актерская профессия!»

Караван историй
«Венгрия — это не только Будапешт» «Венгрия — это не только Будапешт»

Почему российские компании выбирают партнерство с Венгрией

РБК
Вуди Аллен на Новый год: исповедь неудачника под бой курантов Вуди Аллен на Новый год: исповедь неудачника под бой курантов

В российский прокат выходит новый фильм Вуди Аллена «Фестиваль Рифкина»

СНОБ
Одна из четырех выживших черепах Свайно оказалась самкой Одна из четырех выживших черепах Свайно оказалась самкой

Надежда на выживание исчезающего вида

N+1
Андрей Аствацатуров: Все мы друг другу пеликаны, то есть не похожи друг на друга Андрей Аствацатуров: Все мы друг другу пеликаны, то есть не похожи друг на друга

Интервью с писателем Андреем Аствацатуровым

СНОБ
Кризис либерализма: Почему с каждым днем в мире становится на один глоток свободы меньше Кризис либерализма: Почему с каждым днем в мире становится на один глоток свободы меньше

Россия вовсе не одинока в своем запретительном угаре: увы, это общемировой тренд

Maxim
55 м² 55 м²

Отсутствие окон в спальнях не помешало Борису Денисюку оформить квартиру

AD
Как постарели парни из 'N Sync, Blue, 5ive и других популярных бойз-бендов Как постарели парни из 'N Sync, Blue, 5ive и других популярных бойз-бендов

Что случилось с бывшими участниками известных поп-групп

Cosmopolitan
Тест-драйв Infiniti QX50 последнего поколения Тест-драйв Infiniti QX50 последнего поколения

Infiniti QX50 устраивает всех почитателей продукции японского производителя

СНОБ
48 м² 48 м²

Дизайнер Мия Карлова оформила квартиру в стиле кинфолк, но на московский лад

AD
Невероятная история CD-диска. Часть 1 Невероятная история CD-диска. Часть 1

Начало мини революции в области звукозаписи

Популярная механика
Крупные шмели оказались разборчивее мелких Крупные шмели оказались разборчивее мелких

Крупные шмели тратят больше времени, чтобы запомнить цветки

N+1
«Чики», «Ход королевы», «Голливуд»: лучшие сериалы 2020 года «Чики», «Ход королевы», «Голливуд»: лучшие сериалы 2020 года

Ведущие подкаста «В предыдущих сериях» выбрали лучшие сериалы 2020 года

Forbes
Наркотики, интриги, драки: 7 некрасивых историй красивого голливудского кино Наркотики, интриги, драки: 7 некрасивых историй красивого голливудского кино

Что скрывается за кадром легендарных фильмов, которыми восхищается весь мир?

Cosmopolitan
Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний

Физики продемонстрировали работоспособность полурелятивистского подхода

N+1
8 случаев, когда ваши права внезапно станут недействительными. Памятка 8 случаев, когда ваши права внезапно станут недействительными. Памятка

Что грозит автомобилистам с поврежденным водительским удостоверением?

РБК
Анбоксинг беспилотника «СтарЛайн» Анбоксинг беспилотника «СтарЛайн»

Как ездит беспилотный автомобиль из Петербурга

N+1

Красавчики из турецких сериалов

Cosmopolitan
«На мне Fendi, смотри»: как TikTok меняет моду «На мне Fendi, смотри»: как TikTok меняет моду

Как TikTok меняет моду, шоппинг и общество

РБК
Что расскажет о хозяине поведение его собаки? Что расскажет о хозяине поведение его собаки?

Поведение собаки зависит от того, что происходит с её хозяевами

Psychologies
Астрономы заметили избыток лития в атмосфере грязного белого карлика Астрономы заметили избыток лития в атмосфере грязного белого карлика

Он попал туда из планетезималей

N+1
Помощники спекулянтов: как гринч-боты скупают дефицитные товары Помощники спекулянтов: как гринч-боты скупают дефицитные товары

Кто создает гринч-боты, сколько они стоят и как активно их используют в России?

Forbes
Зачем Россия спасает Никола Пашиняна Зачем Россия спасает Никола Пашиняна

Москва не хочет исправлять ошибки своей политики на постсоветском пространстве

СНОБ
Обновленцы: красная церковь Обновленцы: красная церковь

Православная Реформация под опекой большевизма

Weekend
Какие тайны скрывает фильм «Шоколад»? Мнение психолога Какие тайны скрывает фильм «Шоколад»? Мнение психолога

Что нам известно о своей Тени?

Psychologies
«Гениальный Автор Феноменальных Текстов»: ушел из жизни артист и поэт Валентин Гафт «Гениальный Автор Феноменальных Текстов»: ушел из жизни артист и поэт Валентин Гафт

Валентин Гафт проработал в одном театре, «Современнике», 50 лет

Forbes
Открыть в приложении