Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Интервью с триумфатором фестиваля «Санденс» Блертой Башоли Интервью с триумфатором фестиваля «Санденс» Блертой Башоли

В интервью Блерта Башоли рассказала о том, какое будущее хочет для своей страны

СНОБ
Конаковская ГРЭС: титан советской энергетики Конаковская ГРЭС: титан советской энергетики

Конаковская ГРЭС издали выглядит как большой трехмачтовый корабль

Популярная механика
Новый японский динозавр помог разобраться в функциях когтей теризинозавров Новый японский динозавр помог разобраться в функциях когтей теризинозавров

Продвинутые теризинозавры при помощи когтей подтягивали к себе ветви деревьев

N+1
Собраться с силами: 10 лучших мотивационных книг для саморазвития Собраться с силами: 10 лучших мотивационных книг для саморазвития

Лучшие мотивирующие книги, которые стоит прочитать всем

Forbes
5 самых глубоких озер мира: невиданные красоты природы 5 самых глубоких озер мира: невиданные красоты природы

Глубочайшие озера, которые будоражат воображение

ТехИнсайдер
Топ-10 самых популярных авто в России. Реальные цены и наличие у дилеров Топ-10 самых популярных авто в России. Реальные цены и наличие у дилеров

Какие автомобили пользуются популярностью у россиян даже во время обвала рынка

РБК
Ты все придумываешь, ничего не было: что такое газлайтинг и как ему противостоять Ты все придумываешь, ничего не было: что такое газлайтинг и как ему противостоять

Газлайтинг — что это такое, какие признаки и виды газлайтинга бывают

Forbes
Почему большинство блюд рекомендуют готовить при 180 °С Почему большинство блюд рекомендуют готовить при 180 °С

Какую роль играет температура в приготовлении пищи

ТехИнсайдер
Мегапоезд с ядерным реактором: авантюрный проект советских инженеров Мегапоезд с ядерным реактором: авантюрный проект советских инженеров

Инженеры середины ХХ столетия мечтали о гигантских поездах с атомным сердцем

ТехИнсайдер
Опыт выживания: почему Леонида Кравчука награждали следующие президенты Украины Опыт выживания: почему Леонида Кравчука награждали следующие президенты Украины

Леонид Кравчук сделал все, чтобы утвердить украинскую государственность

Forbes
Почему у нас возникают «спорные» сексуальные фантазии и что с ними делать Почему у нас возникают «спорные» сексуальные фантазии и что с ними делать

Как связаны удовольствие и здоровье, зачем женщине игрушки?

VOICE
Сифилис оказался в Китае задолго до экспедиций Васко да Гамы Сифилис оказался в Китае задолго до экспедиций Васко да Гамы

Палеопатологи диагностировали сифилис у людей, умерших около 656–1174 годов

N+1
Чем дорогой робот-пылесос отличается от более дешевого? Чем дорогой робот-пылесос отличается от более дешевого?

Что в дорогих моделях роботов-пылесосв полезного, и стоит ли переплачивать?

CHIP
Мукой обсыпались? Звезды, которых подвела пудра и вспышка — фото вблизи Мукой обсыпались? Звезды, которых подвела пудра и вспышка — фото вблизи

Вспышка фотокамер может сыграть с макияжем злую шутку

VOICE
Сохраняем спокойствие в условиях внешнего кризиса: чем компаниям помогут специалисты-психологи Сохраняем спокойствие в условиях внешнего кризиса: чем компаниям помогут специалисты-психологи

Как российские компании прибегают к помощи внешних и штатных психологов

Inc.
Судьба палача: как сложилась жизнь Тоньки-пулеметчицы после Второй Мировой, и кто ее сдал Судьба палача: как сложилась жизнь Тоньки-пулеметчицы после Второй Мировой, и кто ее сдал

Антонина Макарова получила славу женщины-палача

ТехИнсайдер
Песня победы Песня победы

История о неперспективных детях, человеческих ценностях и музыке

СНОБ
«Кэнди»: бенефис Джессики Бил в роли хладнокровной убийцы «Кэнди»: бенефис Джессики Бил в роли хладнокровной убийцы

«Кэнди» — сериал о том, как Кэндис Монтгомери хладнокровно убила свою подругу

Forbes
Как сон, стресс и счастье меняются после 35 лет Как сон, стресс и счастье меняются после 35 лет

Что такое «средний возраст», когда он приходит и как меняет жизнь

Maxim
Выйти из треугольника драмы: как начать конструктивный диалог в критической ситуации Выйти из треугольника драмы: как начать конструктивный диалог в критической ситуации

Как выйти из ситуации, если вы оказались в одной из ролей треугольника Карпмана

Forbes
Как жадность и расчетливость помогли Полу Гетти создать крупнейший частный музей Как жадность и расчетливость помогли Полу Гетти создать крупнейший частный музей

Отрывок из альбома о Музее Гетти

Forbes
Амазонские дельфины поиграли с анакондой и случайно убили ее Амазонские дельфины поиграли с анакондой и случайно убили ее

Необычный случай произошел на одной из боливийских рек

N+1
Что делают суперуспешные люди рано утром? Что делают суперуспешные люди рано утром?

Что общего у Марка Цукерберга, Анны Винтур и Тима Кука?

Psychologies
«Не смей со мной так разговаривать»: почему эта фраза — признак проблем в отношениях «Не смей со мной так разговаривать»: почему эта фраза — признак проблем в отношениях

Как понять, что у вас еще есть шанс понять друг друга, и что для этого сделать?

Psychologies
Почему мы так плохо помним наше детство? Почему мы так плохо помним наше детство?

Почему у большинства людей нет никаких воспоминаний о первых 3-4 годах жизни

Популярная механика
Кто виноват и что делать: мужское бесплодие и как его определить Кто виноват и что делать: мужское бесплодие и как его определить

Можно ли что-то сделать, если бесплоден мужчина?

VOICE
13 сервисов, где нейросеть улучшает качество и разрешение фото 13 сервисов, где нейросеть улучшает качество и разрешение фото

Хотите улучшить качество фотографий? На помощь придут современные технологии

CHIP
«Одинокая пьющая женщина»: сериал, который показывает проблему женского алкоголизма «Одинокая пьющая женщина»: сериал, который показывает проблему женского алкоголизма

Насколько корректно можно рассказывать о женском алкоголизме в кино?

Forbes
Слабость, нулевой аппетит, ноющий бок: 7 симптомов невидимого рака Слабость, нулевой аппетит, ноющий бок: 7 симптомов невидимого рака

Важные моменты, которые помогут не пропустить рак

Psychologies
Открыть в приложении