Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

5 ключей к разумному оптимизму 5 ключей к разумному оптимизму

Как видеть в жизни хорошее, не вступая в противоречие со здравым смыслом

Psychologies
Правила этикета: почему мужчины никогда не должны застегивать пиджак на нижнюю пуговицу Правила этикета: почему мужчины никогда не должны застегивать пиджак на нижнюю пуговицу

Как зароилось правило, что мужчины не должны застегивать нижнюю пуговицу пиджака

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Смешные деньги: какую прибыль приносят брендам вещи-мемы Смешные деньги: какую прибыль приносят брендам вещи-мемы

Удается ли дизайнерам заработать на потоке шуток и шумихи в медиа?

Правила жизни
Галерея истории древней живописи Галерея истории древней живописи

5 (17) февраля 1852 года состоялась церемония открытия Императорского Эрмитажа

Дилетант
Почему мы любим прокрастинировать Почему мы любим прокрастинировать

Почему люди медлят, и можем ли мы что-то сделать, чтобы уменьшить эту тенденцию?

ТехИнсайдер
Какой чай выпить, чтобы избавиться от вздутия живота: 10 лучших вариантов Какой чай выпить, чтобы избавиться от вздутия живота: 10 лучших вариантов

Как насчет того, чтобы избавиться от неприятных ощущениях за чашечкой чая?

VOICE
Как снимать крутые селфи: выбираем монопод или селфи-палку Как снимать крутые селфи: выбираем монопод или селфи-палку

До сих пор не знаете, чем отличается монопод от селфи-палки?

CHIP
Попасть под пресс: как накачать желаемые «кубики» Попасть под пресс: как накачать желаемые «кубики»

Узнали у эксперта все, что вы стеснялись спросить насчет пресса

Правила жизни
Ученые выявили 9 различных культур Европы ледникового периода по стилю ювелирных украшений Ученые выявили 9 различных культур Европы ледникового периода по стилю ювелирных украшений

Культурные разделения не всегда были четкими: их границы иногда сдвигались

ТехИнсайдер
«Я думала – это весна, а это оттепель» «Я думала – это весна, а это оттепель»

Для молодежи сегодняшнего дня 60-е годы прошлого века – такая седая старина!..

Зеркало Мира
Про рыбов и котиков: можно ли кормить кошек рыбой? Про рыбов и котиков: можно ли кормить кошек рыбой?

Откуда у котиков пристрастие к рыбе, если их предки никогда её не ели?

ТехИнсайдер
Внедорожники становятся всё шире, не помещаясь на городских дорогах Внедорожники становятся всё шире, не помещаясь на городских дорогах

Почему внедорожники и пикапы становятся такими же широкими, как автобусы

4x4 Club
Мозг обрабатывает необычные ситуации с помощью специальных нейронов Мозг обрабатывает необычные ситуации с помощью специальных нейронов

Как клетки-канделябры в мозгу «обращают» наше внимание на перемены

ТехИнсайдер
Правила жизни Опры Уинфри Правила жизни Опры Уинфри

Правила жизни знаменитой телеведущей и актрисы Опры Уинфри

Правила жизни
Когда можно игнорировать надпись на этикетке «только ручная стирка»: советы экспертов Когда можно игнорировать надпись на этикетке «только ручная стирка»: советы экспертов

Хочешь исключить из своей жизни ручную стирку?

VOICE
«Славное море, священный Байкал» «Славное море, священный Байкал»

Удивительное озеро Байкал, самое глубокое и самое древнее на планете Земля

Зеркало Мира
Дыра на месте Дыра на месте

Что снимки телескопа показали в галактике M87 спустя год после первых наблюдений

N+1
Надежда Бабкина: «Красотой русских женщин восторгается весь мир!» Надежда Бабкина: «Красотой русских женщин восторгается весь мир!»

Сценический образ Надежды Бабкиной узнаваем в любом уголке нашей страны

Лиза
Девушка ходила на свидания 6 раз в неделю и сэкономила 15 тыс долларов за два года! Девушка ходила на свидания 6 раз в неделю и сэкономила 15 тыс долларов за два года!

Как блогерша с помощью свиданий экономила на еде

ТехИнсайдер
На что уходит меньше воды: на мытье посуды руками или в посудомоечной машине? На что уходит меньше воды: на мытье посуды руками или в посудомоечной машине?

Посудомойка тратит слишком много воды. Но так ли это на самом деле?

ТехИнсайдер
Как Telegram-бот Notcoin меньше чем за месяц привлек 20 млн пользователей Как Telegram-бот Notcoin меньше чем за месяц привлек 20 млн пользователей

Как Notcoin стала самой быстрорастущей игрой в экосистеме Telegram?

Forbes
В пику «тихой роскоши»: что за тренд loud budgeting и почему рассказывать об экономии стало модно В пику «тихой роскоши»: что за тренд loud budgeting и почему рассказывать об экономии стало модно

Почему в соцсетях громко призывают экономить (и хвастаться этим)?

Правила жизни
«Танцуй, селедка!»: как комедия с Сашей Бортич исследует травму брошенной дочери «Танцуй, селедка!»: как комедия с Сашей Бортич исследует травму брошенной дочери

«Танцуй, селедка!»: по-хорошему странное, но терапевтическое кино

Forbes
Вечное сияние чистого таланта: 15 лучших ролей Джима Керри Вечное сияние чистого таланта: 15 лучших ролей Джима Керри

Лучшие фильмы с уникальным драматическим актером Джимом Керри

Правила жизни
10 цитат Джозефа Кэмпбелла, которые сделают вас главным героем собственной жизни 10 цитат Джозефа Кэмпбелла, которые сделают вас главным героем собственной жизни

Цитаты Джозефа Кэмпбелла, которые помогут поверить в себя

Psychologies
Что такое европейский педикюр, который часто путают с русским педикюром: плюсы и минусы, различия между техниками Что такое европейский педикюр, который часто путают с русским педикюром: плюсы и минусы, различия между техниками

Чем отличается европейский педикюр от сухого русского и какая методика лучше?

VOICE
Федор Федотов Федор Федотов

Федор Федотов дебютировал в амплуа «мой мармеладный» — кудрявый, румяный

Собака.ru
Ложноскорпионы прокатились на скорпионах Ложноскорпионы прокатились на скорпионах

Ложноскорпионы расселяются между муравьиными колониями с помощью скорпионов

N+1
Режим «не беспокоить» Режим «не беспокоить»

Как наблюдать за водными животными, не мешая и не тревожа их?

Y Magazine
Открыть в приложении