ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
5 сверхспособностей, которые станут доступны людям уже через 5 лет по версии футурологов 5 сверхспособностей, которые станут доступны людям уже через 5 лет по версии футурологов

Какие «суперспособности» станут реальностью уже к 2030 году — и какой ценой?

Maxim
Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Униженные, оскорбленные и обиженные Униженные, оскорбленные и обиженные

Как писатели задевали близких своими произведениями

Weekend
Ты мой сладкий! Ты мой сладкий!

Как не ошибиться при покупке легкого и воздушного ванильного зефира

Лиза
От Копенгагена до Нормандии: пять мест, где выгодно быть экологичным туристом От Копенгагена до Нормандии: пять мест, где выгодно быть экологичным туристом

Места, где за экологичное поведение туристы могут получить бонус

Forbes
Адмирал на час Адмирал на час

Артиллерийские дуэли в World of Warships

Популярная механика
Ностальгия на волне Ностальгия на волне

Почему звезды 90-х и 2000-х снова популярны в России?

Ведомости
«Медицина стала точной наукой» «Медицина стала точной наукой»

Революция в изучении человека и новые методы терапии рака: мнение профессора РАН

Монокль
Пластик, металл, стекло: какая посуда подходит для микроволновки Пластик, металл, стекло: какая посуда подходит для микроволновки

Какая посуда безопасна для микроволновки, а от какой лучше отказаться?

CHIP
Блокировка расчетного счета: что это и почему так происходит Блокировка расчетного счета: что это и почему так происходит

Блокировка расчетного счета: как быстро решить проблему и снять блокировку?

Inc.
Ген-план Ген-план

Почему снижение стоимости технологии прочтения генома не привело к прорыву?

Правила жизни
От Трампа до Дидди: как именитые судебные художницы работали на громких процессах От Трампа до Дидди: как именитые судебные художницы работали на громких процессах

Судебные художницы: истоки профессии и самые известные процессы

Forbes
Я хочу сыграть в кешбэк Я хочу сыграть в кешбэк

Как банки влияют на поведение своих клиентов через кэшбек и игровые механики

Монокль
«Бархатный молоток»: как Эстер Петерсон боролась с зарплатным неравенством «Бархатный молоток»: как Эстер Петерсон боролась с зарплатным неравенством

Как Эстер Петерсон стала главной союзницей работающих американок

Forbes
Многодетный капитал Многодетный капитал

Росту рождаемости помогут обновлённый маткапитал и сниженные ставки по ипотеке

Ведомости
Абонент не в сети: почему цифровой детокс и отказ от технологий не всегда помогают Абонент не в сети: почему цифровой детокс и отказ от технологий не всегда помогают

Как разумно регулировать свое поведение в соцсетях и в обращении с технологиями

Forbes
Шоу продолжается Шоу продолжается

Эра Бернара Тапи в «Марселе»: взлёт, скандал и резкое падение клуба

Ведомости
Холсты за миллионы долларов: самые дорогие картины отечественных художников Холсты за миллионы долларов: самые дорогие картины отечественных художников

О самых дорогих картинах, вышедших из под кистей российских мэтров живописи

ТехИнсайдер
Гранфлюенсеры: каких российских блогеров старше 50 лет смотрят зумеры и миллениалы Гранфлюенсеры: каких российских блогеров старше 50 лет смотрят зумеры и миллениалы

Возрастные инфлюенсеры, контент которых смотрят зумеры

Forbes
«Если какие сложности, основной груз на мне»: как женщины воспитывают приемных детей «Если какие сложности, основной груз на мне»: как женщины воспитывают приемных детей

Forbes Woman исследовал гендерные аспекты приемного родительства

Forbes
«По-любому ты — брат мне»: почему «Бригада» — великий сериал «По-любому ты — брат мне»: почему «Бригада» — великий сериал

Феномен «Бригады», повлиявшей на индустрию и умы целого поколения

Правила жизни
Во Франции раскопали детально проработанную голову палеолитической Венеры Во Франции раскопали детально проработанную голову палеолитической Венеры

Чем ученых заинтересовал один из артефактов на стоянке Амьен-Ренанкур-1

N+1
Газ, вода и стальные трубы Газ, вода и стальные трубы

Как российский рынок выпуска ТБД исчерпал текущий потенциал

Монокль
Что нужно помнить о DDoS-атаках и как от них защититься? Объясняет эксперт! Что нужно помнить о DDoS-атаках и как от них защититься? Объясняет эксперт!

DDoS-атаки — орудие самых злостных хакеров. Как защитить свои устройства?

ТехИнсайдер
Бухенвальдская ведьма: история Ильзы Кох, одного из крупнейших монстров Холокоста Бухенвальдская ведьма: история Ильзы Кох, одного из крупнейших монстров Холокоста

Ильза Кох — одна из самых жестких представительниц гитлеровского режима

ТехИнсайдер
Взрывные цены Взрывные цены

Спрос на это удобрение растет на фоне роста потребления в Бразилии

Ведомости
Летний ликбез Летний ликбез

Почему одного SPF нам будет недостаточно

Лиза
Кутхины баты: удивительное место на Камчатке, в существование которого трудно поверить Кутхины баты: удивительное место на Камчатке, в существование которого трудно поверить

Один из самых потрясающих памятников природы — Кутхины баты

ТехИнсайдер
Женщина с иммуносупрессией заразилась кошачьей бактерией Женщина с иммуносупрессией заразилась кошачьей бактерией

Врачи сообщили о редком случае инфекции, вызванной бактерией Mycoplasma arginini

N+1
Открыть в приложении