Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
10 самых перспективных российских предпринимателей моложе 30 лет — 2022 10 самых перспективных российских предпринимателей моложе 30 лет — 2022

Десятка самых перспективных бизнесменов России

Forbes
Почему тебе не дарят подарки? Алина Фаркаш о возможных причинах Почему тебе не дарят подарки? Алина Фаркаш о возможных причинах

Почему все женщины делятся на тех, кому покупают подарки, и тех, кому нет?

Cosmopolitan
Вирджиния Вульф, Мэри Шелли, Джейн Остин: 10 лучших фильмов о писательницах Вирджиния Вульф, Мэри Шелли, Джейн Остин: 10 лучших фильмов о писательницах

Подборка фильмов о знаменитых писательницах

Forbes
Сменить колею: что не так с транспортной политикой в России Сменить колею: что не так с транспортной политикой в России

Почему транспортная политика в России не работает

Forbes
Капкан ипотеки Капкан ипотеки

За что могут выселить из квартиры и как этого избежать

Лиза
Прокусить не так-то просто: кто пил кровь динозавров? Прокусить не так-то просто: кто пил кровь динозавров?

Доисторические кровососы стали одной из причин вымирания динозавров

Вокруг света
Археологи обнаружили в Израиле 120-тысячелетнюю кость с гравировкой Археологи обнаружили в Израиле 120-тысячелетнюю кость с гравировкой

Во время раскопок памятника Нешер Рамла нашли фрагмент кости первобытного тура

N+1
Ужасы и прелести кулачных боев Ужасы и прелести кулачных боев

Собрали все «за» и «против» кулачных боев

Maxim
«Мужчина избегает близости, так как считает меня предательницей» «Мужчина избегает близости, так как считает меня предательницей»

Партнер решает свои проблемы через вас — что делать?

Psychologies
Нужно ли пить протеин, чтобы похудеть Нужно ли пить протеин, чтобы похудеть

Может ли протеиновый порошок помочь похудеть?

Популярная механика
Что упало — не пропало: правда ли быстро поднятое не считается упавшим? Отвечает наука Что упало — не пропало: правда ли быстро поднятое не считается упавшим? Отвечает наука

“Правило пяти секунд” работает не всегда и не с любой едой

ТехИнсайдер
Девочка, которая должна была стать сверхчеловеком: страшная история Мод Жюльен Девочка, которая должна была стать сверхчеловеком: страшная история Мод Жюльен

Мод Жульен в фантазиях Луи Дидье должна была стать полубогиней

VOICE
Как сделать скриншот на телефоне: руководство для разных моделей Как сделать скриншот на телефоне: руководство для разных моделей

Как сделать скриншот на смартфоне сочетанием клавиш

CHIP
Сила горя: зачем нужно оплакивать потери Сила горя: зачем нужно оплакивать потери

Все проживают горе по-своему, оно не проходит без следа. Как с ним справиться?

Psychologies
Свои виды Свои виды

Три яхтенных маршрута, стартующие в Москве и Петербурге

Robb Report
Не хуже семян чиа: 7 причин, почему голубика — отличный российский суперфуд Не хуже семян чиа: 7 причин, почему голубика — отличный российский суперфуд

Многие не догадываются, сколько полезного в этой болотной ягоде

Вокруг света
Как питаться, чтобы избежать рака Как питаться, чтобы избежать рака

Питание, которое снизит риск онкологического заболевания

Psychologies
БАДы: польза и вред биологически активных добавок БАДы: польза и вред биологически активных добавок

Споры вокруг БАДов не утихают десятилетиями

Psychologies
Осторожно: цветы! Осторожно: цветы!

Цветы и возможные опасности, которые они могут таить в себе

Здоровье
Невероятные кинетические украшения Дакно Юна Невероятные кинетические украшения Дакно Юна

Живые существа в мире механизмов Дакно Юна

ТехИнсайдер
Пришельцы в Балтике: кто они, откуда и почему прижились? Пришельцы в Балтике: кто они, откуда и почему прижились?

Биологические инвазии — это глобальное экологическое явление

Наука и жизнь
«Дочь приняла решение о разводе на эмоциях — как ее отговорить?» «Дочь приняла решение о разводе на эмоциях — как ее отговорить?»

Как вести себя, если ваша дочь вдруг решилась на развод?

Psychologies
Первое свидание: как понять, что он(а) вам подходит? Первое свидание: как понять, что он(а) вам подходит?

Как понять, что человек искренен и готов к отношениям?

Psychologies
Владимир Киселев Владимир Киселев

Почему мода на рэп скоро пройдет и какие современные треки являются мегахитами

ЖАРА Magazine
5 овощей, которые можно вырастить дома: лучшие растения для квартиры 5 овощей, которые можно вырастить дома: лучшие растения для квартиры

Как сделать небольшой огород прямо у себя дома

Популярная механика
«Москвич» возвращается. 8 самых культовых моделей марки «Москвич» возвращается. 8 самых культовых моделей марки

Культовые модели возрождающейся марки «Москвич»

РБК
Роман «наследника Маркеса»: как преодолевали травмы в Колумбии после Пабло Эскобара Роман «наследника Маркеса»: как преодолевали травмы в Колумбии после Пабло Эскобара

Отрывок из книги современного колумбийского писателя «Звук падающих вещей»

Forbes
Настоящие гиганты: 5 самых больших динозавров, когда-либо существовавших на Земле Настоящие гиганты: 5 самых больших динозавров, когда-либо существовавших на Земле

Некоторые динозавры могли бы заглядывать в окна 9-этажного дома.

ТехИнсайдер
На распространение растительноядных динозавров на Аляске осадки повлияли сильнее температуры На распространение растительноядных динозавров на Аляске осадки повлияли сильнее температуры

Гадрозавриды предпочитали влажные условия, а цератописды — засушливые

N+1
Открыть в приложении