Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как королевские особы влияли на моду? Посмотрите на примеры королевы Виктории и принцессы Дианы Как королевские особы влияли на моду? Посмотрите на примеры королевы Виктории и принцессы Дианы

Влияние монархов на стиль даже в XXI веке куда глубже, чем кажется

ТехИнсайдер
Краткая история пикапов Jeep. С 1947 года и до наших дней Краткая история пикапов Jeep. С 1947 года и до наших дней

Что помешало Jeep продолжить грузовую линейку?

4x4 Club
Дипфейк и верификация видео: как не стать жертвой обмана Дипфейк и верификация видео: как не стать жертвой обмана

Как обезопасить себя от дипфейков и мошеннических видео

Правила жизни
С чистого листа. 5 главных песен Джона Леннона С чистого листа. 5 главных песен Джона Леннона

Рассматриваем биографию Джона Леннона через 5 его главных песен

СНОБ
Используй ложку и телефон: 20 способов доставить себе удовольствие Используй ложку и телефон: 20 способов доставить себе удовольствие

Двадцать разных способов мастурбации на любой вкус и цвет

Cosmopolitan
6 правил, которые помогут безопасно знакомиться в интернете 6 правил, которые помогут безопасно знакомиться в интернете

Пытаясь найти свое счастье в Сети, важно помнить о правилах безопасности

Psychologies
Горбатов Александр Горбатов Александр

Александр Горбатов — о саспенсе «Цербера» и профессии актера

Собака.ru
«Мама проверяла, дышу ли я»: история лыжницы, которая побеждает, несмотря на булимию «Мама проверяла, дышу ли я»: история лыжницы, которая побеждает, несмотря на булимию

32-летняя Джесси Диггинс является самой титулованной американкой в лыжных гонках

Forbes
Зельеварение на Руси: почему наши предки считали цветы опасными Зельеварение на Руси: почему наши предки считали цветы опасными

Отрывок из книги Александры Барковой «Зельеварение на Руси»

Forbes
Всего две точки над «е»: приключения одной буквы Всего две точки над «е»: приключения одной буквы

Как и откуда взялась буква Ё?

Знание – сила
Атомные гиганты полярных морей. Смена поколений Атомные гиганты полярных морей. Смена поколений

Зачем России XXI века нужны ледоколы?

Наука и техника
10 необычных, но полезных методов использования чеснока в быту 10 необычных, но полезных методов использования чеснока в быту

Как можно использовать чеснок не по назначению

ТехИнсайдер
Влюбленные в облаках и со стертой памятью: фильмы Мишеля Гондри от худшего к лучшему Влюбленные в облаках и со стертой памятью: фильмы Мишеля Гондри от худшего к лучшему

Все игровые фильмы одного из главных фантазеров современного кино Мишеля Гондри

Правила жизни
Бум пара! Бум пара!

Татьяна Буланова и Алексей Жидковский отправились в лютый рестохопинг

Собака.ru
Отрывок из романа Алисы Ханцис «Кариатиды» Отрывок из романа Алисы Ханцис «Кариатиды»

Глава из романа Алисы Ханцис «Кариатиды»

СНОБ
Лучшие финансовые результаты венчурных фондов достигаются, когда руководящие позиции занимают женщины Лучшие финансовые результаты венчурных фондов достигаются, когда руководящие позиции занимают женщины

Отсутствие женщин в венчурных фондах лишает индустрию стартапов талантов

Inc.
6 типажей, которые помогут распознать в ребенке будущего нарцисса 6 типажей, которые помогут распознать в ребенке будущего нарцисса

Специфические черты нарциссов могут начать проявляться уже в юном возрасте

Psychologies
Почему ты не спишь? Почему ты не спишь?

Ошибки при организации пространства в спальне, из-за которых ты не высыпаешься

Лиза
Как работает мозг, и как поддерживать его здоровье Как работает мозг, и как поддерживать его здоровье

Как привычки и образ жизни влияют на мозг?

ТехИнсайдер
Автомобили героев сериала «Во все тяжкие». Культовые машины преступного мира Альбукерке Автомобили героев сериала «Во все тяжкие». Культовые машины преступного мира Альбукерке

Пристальный взгляд на модели из знаменитого сериала и скрытый в них символизм

4x4 Club
Дымит разлом Дымит разлом

Как устроена физика Quantum Break

N+1
Самые красивые российские актрисы в зарубежных фильмах Самые красивые российские актрисы в зарубежных фильмах

Западные режиссеры не могут устоять перед российскими красавицами актрисами

Maxim
3 совета, которые сделают любого человека в любом возрасте в разы богаче 3 совета, которые сделают любого человека в любом возрасте в разы богаче

Как можно достичь финансового благополучия, независимо от своей зарплаты

Inc.
«Я работаю — ты воспитываешь»: 6 фраз, которые выдают токсичного мужа и отца «Я работаю — ты воспитываешь»: 6 фраз, которые выдают токсичного мужа и отца

Какие фразы можно услышать от токсичного отца?

Psychologies
Какой кофе бывает и как его выбрать: советы экспертов Какой кофе бывает и как его выбрать: советы экспертов

Как выбрать кофе домой?

РБК
Наше благородие Наше благородие

Попробуем найти универсальные черты «воспитанного человека»?

VOICE
Этапы роста: как распознать аномалию Этапы роста: как распознать аномалию

Как понять, нормально ли развивается ваш ребенок?

Psychologies
Нестыдный рефлекс: 5 причин, почему сдерживать чихание вредно Нестыдный рефлекс: 5 причин, почему сдерживать чихание вредно

Почему позволять себе свободно чихать — это на здоровье

ТехИнсайдер
Остановите передачу: комплекс жертвы, полученный по наследству Остановите передачу: комплекс жертвы, полученный по наследству

Почему большинство из нас является носителем комплекса жертвы

Psychologies
Аттосекундное дело Аттосекундное дело

Пьер Агостини, Ференц Краус и Ан Люйе придумали, как разглядеть электрон

Наука
Открыть в приложении