ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Новые законы робототехники Новые законы робототехники

Должны ли роботы получить правовой статус электронных лиц?

Популярная механика
Маршрут построен Маршрут построен

Как экономить на поездках в метро в разных городах России

Лиза
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Век живи: долгожительство станет нормой Век живи: долгожительство станет нормой

Долголетие: фантазии или ближайшее будущее?

Монокль
Радио против видео Радио против видео

Автоматическая посадка крылатого летательного аппарата давно уже не фантастика

Популярная механика
Женщины выбирают вокал: как гендер влияет на музыкальные предпочтения Женщины выбирают вокал: как гендер влияет на музыкальные предпочтения

Влияет ли пол на музыкальные предпочтения?

Forbes
1990: Лихие и крутые 1990: Лихие и крутые

В январе 1991 года на Пушкинской площади открылся первый «Макдоналдс»

Esquire
«Речь про свободолюбие, озорство какое-то»: художник Саша Браулов — о работе над обложкой «Правил жизни», вышивке как методе и здоровом хулиганстве «Речь про свободолюбие, озорство какое-то»: художник Саша Браулов — о работе над обложкой «Правил жизни», вышивке как методе и здоровом хулиганстве

Художник Саша Браулов о вышивке как методе и силе доброты

Правила жизни
Почему в жару отекают ноги и как снять отек Почему в жару отекают ноги и как снять отек

В чем причины отеков лодыжек и стоп в жару

РБК
VR, алгоритмы Netflix и даже ChatGPT: 5 книг, которые предсказали современные ИИ-технологии VR, алгоритмы Netflix и даже ChatGPT: 5 книг, которые предсказали современные ИИ-технологии

Книги, которыми (возможно) вдохновлялись Сэм Альтман, Стив Джобс и Билл Гейтс

Inc.
Дрифт без правил Дрифт без правил

«Жига. На полной скорости»: каким получился фильм о дрифтинге в России?

Автопилот
Кино привезли Кино привезли

Сколько стоили импортные фильмы России

Деньги
Анатолий Шульев: Свойство таланта в том, чтобы преодолевать неудачи Анатолий Шульев: Свойство таланта в том, чтобы преодолевать неудачи

Анатолий Шульев о смыслах, заложенных в спектакль о физике Льве Ландау

Ведомости
Дивный Воронеж Дивный Воронеж

Город-открытие, который ты пропускаешь по пути на море

Лиза
Как историк Ричард Бут вдохновляет создание букинистических городков по всему миру Как историк Ричард Бут вдохновляет создание букинистических городков по всему миру

Глава из книги Ким Онхо «Книжные магазины»

Forbes
Под знаком футбола Под знаком футбола

Интервью с Марией Галай, футболисткой с девяти лет

Лиза
Как наше имя влияет на нашу внешность: научные данные Как наше имя влияет на нашу внешность: научные данные

Могут ли наши имена влиять на наш внешний вид? Вероятно, да

ТехИнсайдер
Хоббиномика: как научиться управлять вниманием и развить эмпатию с помощью чтения Хоббиномика: как научиться управлять вниманием и развить эмпатию с помощью чтения

Почему чтение все еще актуально и где искать хорошие книжные рекомендации

Forbes
Прокатят по деньгам Прокатят по деньгам

Как развивается и от чего зависит цена на сталь в России

Ведомости
Ольга Дибцева: «Только движение спасает от всего плохого» Ольга Дибцева: «Только движение спасает от всего плохого»

Актриса Ольга Дибцева — о съёмках после родов и своём целебном лайфхаке

Здоровье
Новые гибкие актуаторы позволили колесному роботу трансформироваться в квадрокоптер Новые гибкие актуаторы позволили колесному роботу трансформироваться в квадрокоптер

Инженеры разработали гибкие актуаторы, которые могут плавно деформироваться

N+1
Домашняя работа: как привести IT в ЖКХ в порядок Домашняя работа: как привести IT в ЖКХ в порядок

О том, что можно сделать с хаосом в жилищно-коммунальном IT

Forbes
Самый сок Самый сок

Готовим полезные напитки из дачных ягод, фруктов и овощей

Добрые советы
Больше движений! Больше движений!

Нужно больше двигаться, а не искать отговорки, почему не можешь

Y Magazine
Режиссер Леонид Хейфец. Откровенно о Дорониной, Миронове и Борисове Режиссер Леонид Хейфец. Откровенно о Дорониной, Миронове и Борисове

Когда Ефремов пригласил меня, МХАТ как раз «пилился»

Коллекция. Караван историй
Старшенбаум Старшенбаум

Архетипичная дрим-герл Ирина Старшенбаум вошла в свою фам фаталь и секси-эру

Собака.ru
Карта мягкой посадки Карта мягкой посадки

Российская экономика остывает, а бизнес ищет растущие сегменты

Монокль
Астраханское море Астраханское море

Знакомься, наше российское Мертвое море — озеро Баскунчак

Лиза
Акцент на глаза Акцент на глаза

Выбираем патчи для глаз на все случаи жизни

Лиза
Самка шимпанзе из заповедника Будонго вытерла пенис самца листьями после спаривания Самка шимпанзе из заповедника Будонго вытерла пенис самца листьями после спаривания

Как можно судить о зарождении медицины у людей на примере шимпанзе

N+1
Открыть в приложении