Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«У нас хватило ума…» «У нас хватило ума…»

Как завершалась холодная война между СССР и США?

Дилетант
«Кухня Древнего мира» «Кухня Древнего мира»

О сырах, которые в Древнем Риме считались скромной пищей

N+1
Краткая история наготы Краткая история наготы

Как менялось отношение человечества к обнаженному телу

Правила жизни
Почему в жару отекают ноги и как снять отек Почему в жару отекают ноги и как снять отек

В чем причины отеков лодыжек и стоп в жару

РБК
«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Женщины выбирают вокал: как гендер влияет на музыкальные предпочтения Женщины выбирают вокал: как гендер влияет на музыкальные предпочтения

Влияет ли пол на музыкальные предпочтения?

Forbes
Булка из детства: какой хлеб пекли в СССР и чем полезна ностальгия Булка из детства: какой хлеб пекли в СССР и чем полезна ностальгия

До сих пор с ностальгическим вздохом вспоминаете хлеб, который продавали в СССР?

Psychologies
Маршрут построен Маршрут построен

Как экономить на поездках в метро в разных городах России

Лиза
Язык в поисках понятия о себе Язык в поисках понятия о себе

Можно спорить о начальной точке, когда любой язык стал пониматься как система

Знание – сила
Дрифт без правил Дрифт без правил

«Жига. На полной скорости»: каким получился фильм о дрифтинге в России?

Автопилот
Больше не колется: 5 способов сделать льняную одежду мягче Больше не колется: 5 способов сделать льняную одежду мягче

Как сделать льняные вещи мягче и избавиться от неприятных ощущений

ТехИнсайдер
Кино привезли Кино привезли

Сколько стоили импортные фильмы России

Деньги
Новая жизнь Новая жизнь

Как сделать косметический ремонт своими руками

Лиза
Национальность может говорить о потребностях во сне Национальность может говорить о потребностях во сне

Культурные нормы определяют ваши потребности во сне. Так ли это?

ТехИнсайдер
Дружелюбный инсайдер: как ИИ становится новым каналом утечек Дружелюбный инсайдер: как ИИ становится новым каналом утечек

ИИ против безопасности: почему компании теряют данные через ChatGPT

Forbes
Космический аппарат «Вояджер-1» запустил резервные двигатели, отключенные 21 год назад Космический аппарат «Вояджер-1» запустил резервные двигатели, отключенные 21 год назад

Как инженеры запустили движители «Вояджера-1», молчавшие с 2004 года?

ТехИнсайдер
Атлантические крепости Третьего рейха Атлантические крепости Третьего рейха

Атлантический вал: порты-крепости и их роль в обороне Третьего рейха

Наука и техника
Мелочей не бывает Мелочей не бывает

Как банки строят программы для клиентов премиум-сегмента

Деньги
NASA обнаружило на Марсе «редкие сокровища», пролежавшие там миллиарды лет NASA обнаружило на Марсе «редкие сокровища», пролежавшие там миллиарды лет

Марсоход NASA обнаружил множество древних камней на краю кратера Езеро

Inc.
Древние и красивые: 5 важных археологических памятников Древние и красивые: 5 важных археологических памятников

Самые впечатляющие и ценнейшие археологические памятники

ТехИнсайдер
«Путеводитель по Средневековью: Мир глазами ученых, шпионов, купцов и паломников» «Путеводитель по Средневековью: Мир глазами ученых, шпионов, купцов и паломников»

Каково было совершать паломничество на борту галеи

N+1
Медоуказчики привели людей к змеям по ошибке Медоуказчики привели людей к змеям по ошибке

Орнитологи выяснили, почему большие медоуказчики иногда направляют людей к змеям

N+1
Признание на стекле: как «Ролан Гаррос» подарил теннису самую узнаваемую традицию Признание на стекле: как «Ролан Гаррос» подарил теннису самую узнаваемую традицию

Почему традиция теннисистов расписываться на линзе камере родилась во Франции

Forbes
Летняя косметичка: что убавить, что прибавить Летняя косметичка: что убавить, что прибавить

Как пережить жару и сохранить красоту? Золотые правила ухода

Добрые советы
Краткая жизнь немецкого Vogue: почему не удалось построить империю глянца в Германии Краткая жизнь немецкого Vogue: почему не удалось построить империю глянца в Германии

Почему немецкая версия Vogue стала самым дорогостоящим провалом Конде Наст?

Forbes
Наночастицы пластика могут принести ионы тяжелых металлов в организм человека Наночастицы пластика могут принести ионы тяжелых металлов в организм человека

Пагубное воздействие частиц нанопластика еще больше усиливается

ТехИнсайдер
Разборки из-за жаб Разборки из-за жаб

К чему может привести путешествие с лягушкой в кармане и при чем здесь Трамп?

Правила жизни
Под знаком футбола Под знаком футбола

Интервью с Марией Галай, футболисткой с девяти лет

Лиза
Секреты мотивации Секреты мотивации

Как вернуть мотивацию без изнурительной работы над собой?

Лиза
Россия признала вино Россия признала вино

Как развивается в России производство винной продукции

Ведомости
Открыть в приложении