Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мобилизация-1914: эмоции россиян Мобилизация-1914: эмоции россиян

Кто определяет «национальные интересы»?

Дилетант
«Медицина стала точной наукой» «Медицина стала точной наукой»

Революция в изучении человека и новые методы терапии рака: мнение профессора РАН

Монокль
Краткая история наготы Краткая история наготы

Как менялось отношение человечества к обнаженному телу

Правила жизни
Печать дьявола Печать дьявола

В модной индустрии тоже есть свои инновации, и одна из них – 3D-печать

Правила жизни
Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
Связь с народом: зачем медицинским чиновникам блоги в соцсетях Связь с народом: зачем медицинским чиновникам блоги в соцсетях

Насколько эффективно органы власти используют цифровую открытость?

Forbes
Морщины ни при чем Морщины ни при чем

Почему не стоит переживать из-за морщин и над чем стоит поработать

Afternoon Seasons of life
Селективное развитие Селективное развитие

Как развиваются научные исследования в селекции и генетике для развития АПК

Ведомости
Ценные кадры Ценные кадры

Куда же движется главное из искусств

Men Today
Помело: польза, вред, как есть и что приготовить — рецепт шеф-повара Помело: польза, вред, как есть и что приготовить — рецепт шеф-повара

Чем полезно помело и как правильно его есть?

РБК
Люди, традиции, поговорки и преступления Люди, традиции, поговорки и преступления

Из чего Льюис Кэрролл создал «Алису в Стране чудес»

Weekend
«Кто придумал землю? Путеводитель по геофилософии от Делёза и Деррида до Агамбена и Латура» «Кто придумал землю? Путеводитель по геофилософии от Делёза и Деррида до Агамбена и Латура»

Правильно ли противопоставлять природу и культуру

N+1
Под ливнем наград Под ливнем наград

История создания кастомной яхты Benetti Kasper 7

Y Magazine
Елизавета Шакира: «Может быть, я какая-то неправильная актриса» Елизавета Шакира: «Может быть, я какая-то неправильная актриса»

Актриса Елизавета Шакира — о дружбе вне экрана и спонтанной карьере

Ведомости
Тело, страхи и перверсии: Дэвид Кроненберг в пяти фильмах Тело, страхи и перверсии: Дэвид Кроненберг в пяти фильмах

Работы, которые помогут лучше понять Дэвида Кроненберга

Правила жизни
Стрелы, драки, интриги: главные скандалы с папарацци в истории фотожурналистики Стрелы, драки, интриги: главные скандалы с папарацци в истории фотожурналистики

Знаковые моменты из истории самого скандального жанра фотожурналистики

Правила жизни
«Тратить — очень круто»: как зумеры ведут себя с деньгами «Тратить — очень круто»: как зумеры ведут себя с деньгами

Как молодые взрослые ищут баланс между тратами и накоплениями

РБК
8 вещей, которые нельзя хранить под кроватью 8 вещей, которые нельзя хранить под кроватью

Есть вещи, которые лучше держать подальше от подкроватья

VOICE
Художник Татьяна Андреева: «Меня интересует волновая природа всего» Художник Татьяна Андреева: «Меня интересует волновая природа всего»

Татьяна Андреева о том, как поймать неуловимое и о новом большом проекте

РБК
На Марсе будут расти дома: ученые придумали способ, который решит проблему колонизации На Марсе будут расти дома: ученые придумали способ, который решит проблему колонизации

Как строить из того, что предлагает сам Марс?

Inc.
На чистые волосы и не чаще раза в неделю? Как  на самом деле следует пользоваться сухим шампунем На чистые волосы и не чаще раза в неделю? Как  на самом деле следует пользоваться сухим шампунем

Как правильно использовать сухой шампунь и каков его смысл на чистых волосах?

ТехИнсайдер
Медвежий угол Медвежий угол

Как оргкомитет московской Олимпиады-80 зарабатывал – рубли и валюту

Ведомости
Андрей Борисов: Театр – это эссенция жизни, субстрат смыслов Андрей Борисов: Театр – это эссенция жизни, субстрат смыслов

Гендиректор МАМТа — о миссии театра, лидерстве и ценностях для нового поколения

Ведомости
Собрать всех друзей: хип-хоп-исполнитель Кассета о новом альбоме «Ателье» Собрать всех друзей: хип-хоп-исполнитель Кассета о новом альбоме «Ателье»

Музыкант Кассета — о специфике работы с другими испольнителями

Forbes
Биржу залили горючим Биржу залили горючим

Почему в России растут биржевые цены на нефтепродукты

Ведомости
IFA против ЗИЛ: в чем сила грузовиков-конкурентов из СССР и ГДР IFA против ЗИЛ: в чем сила грузовиков-конкурентов из СССР и ГДР

Какой грузовой автомобиль был главным в советские годы: ЗИЛ-130 или IFA W 50?

ТехИнсайдер
Пять вещей, которые категорически нельзя оставлять в машине в жару Пять вещей, которые категорически нельзя оставлять в машине в жару

Какие оставленные в автомобиле вещи в жаркую погоду могут быть фатальными

РБК
Гелий Гелий

Известно, что каждый элемент имеет свой, только ему одному принадлежащий спектр

Наука и жизнь
«Британский Шиндлер»: история Николаса Уинтона, спасшего 669 детей от нацистов «Британский Шиндлер»: история Николаса Уинтона, спасшего 669 детей от нацистов

Николаса Уинстона, британского филантропа, не просто так называют «Шиндлером»

ТехИнсайдер
От Шагала до мурала От Шагала до мурала

Арт-маршрут от Ниццы до Перпиньяна, достойный целых каникул

Y Magazine
Открыть в приложении