«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Названы 5 тайн Вселенной, которые человечеству еще предстоит разгадать Названы 5 тайн Вселенной, которые человечеству еще предстоит разгадать

Ученые до сих пор не знают ответов на многие фундаментальные вопросы

Вокруг света
Два дня Владимира Ильича Два дня Владимира Ильича

Как Марк Захаров и Олег Ефремов вдыхали жизнь в лениниану

Weekend
Почему у мужчин «пунктик» на анальном сексе? Почему у мужчин «пунктик» на анальном сексе?

Откуда у мужчин эта причудливая фиксация на анальном сексе

Cosmopolitan
Законное преступление: Как зарабатывают миллионы на фотографиях в интернете Законное преступление: Как зарабатывают миллионы на фотографиях в интернете

В России набирает обороты новая схема заработка на фотографиях в интернете

ФедералПресс
Новые РеалИИ Новые РеалИИ

Российские продукты на базе искусственного интеллекта

ФедералПресс
Писаная красота Писаная красота

Византийское «наследство» в виде письменности

Дилетант
Будущее вопросительно Будущее вопросительно

Алексей Андреев стоял у истоков русскоязычного сегмента интернета

Правила жизни
Будущее по дефолту Будущее по дефолту

Какие ожидания сформировал экономический кризис 1998-го

Weekend
Темные миры Темные миры

Таинственные тоннели, подземные водоемы, удивительной красоты сталактиты

Вокруг света
Присмотритесь к близким: 6 признаков деменции, которые увидите только вы Присмотритесь к близким: 6 признаков деменции, которые увидите только вы

Как распознать первые симптомы деменции у близких?

Psychologies
«Каждая кредитная сделка — вклад в развитие экономики региона» «Каждая кредитная сделка — вклад в развитие экономики региона»

Как малый и средний бизнес занимает новые ниши экономики

Деньги
Это мы не проходили Это мы не проходили

Высшее образование становится бессмысленным, но учиться приходится всю жизнь

Men Today
Вокзал как искусство Вокзал как искусство

Вокзал Владивостока – не просто вокзал, а настоящий памятник русского зодчества

Отдых в России
Булка из детства: какой хлеб пекли в СССР и чем полезна ностальгия Булка из детства: какой хлеб пекли в СССР и чем полезна ностальгия

До сих пор с ностальгическим вздохом вспоминаете хлеб, который продавали в СССР?

Psychologies
Ольга Медынич: «Вампиры на самом деле обитают среди нас» Ольга Медынич: «Вампиры на самом деле обитают среди нас»

«Когда соглашалась на эту роль, даже не думала, с чем столкнусь»

Караван историй
Что угрожает нашему интеллекту? Что угрожает нашему интеллекту?

Человечество на вершине интеллектуального потенциала! Но что нас ждёт впереди?

Здоровье
Как мужчине ухаживать за лицом, чтобы в 40 лет оно не скукожилось Как мужчине ухаживать за лицом, чтобы в 40 лет оно не скукожилось

Врач-дерматолог рассказывает о тонкостях мужского ухода за кожей лица

Maxim
Сезон засухи: почему кожа становится обезвоженной и как вернуть ей здоровье Сезон засухи: почему кожа становится обезвоженной и как вернуть ей здоровье

Что делать, если коже не хватает влаги

Forbes
Мой мальчик Мой мальчик

Пары, в которых мужчина заметно моложе женщины, вызывают неоднозначную реакцию

VOICE
Доктор и политик: как Анна Шабанова боролась за право работать и голосовать Доктор и политик: как Анна Шабанова боролась за право работать и голосовать

Анна Шабанова: одна из первых женщин-врачей и феминисток России?

Forbes
Была бы лодка Была бы лодка

Changan CS35 Plus и путешествия по воде

Автопилот
Ругаться буду! Ругаться буду!

Почему нам так нравится скандалить в соцсетях (и стоит ли этим заниматься)

VOICE
Пропаганда как свидетельство Пропаганда как свидетельство

6 фильмов, в которых старые кадры разоблачают своих героев и заказчиков

Weekend
7 экспериментов на детях, которые изменили систему воспитания 7 экспериментов на детях, которые изменили систему воспитания

Эксперименты, которые пролили свет на то, как работает детская психика

Psychologies
Жизнь других Жизнь других

Существуют места, словно созданные для съемок фильмов про иные миры

Men Today
Промышленным гигантам нужны ферменты Промышленным гигантам нужны ферменты

Ученые создали новую технологию получения ферментов для промышленности

Наука
Интерьер на счастье Интерьер на счастье

Бюро объединило четыре квартиры на последнем этаже московской новостройки

SALON-Interior
Алло, мы ищем таланты! Алло, мы ищем таланты!

Что делать, когда вы не знаете, где искать свое призвание?

Добрые советы
Кукла, приятная во всех отношениях Кукла, приятная во всех отношениях

«Барби»: Грета Гервиг монетизирует критику капитализма

Weekend
Только бот простит Только бот простит

Как мы меняем искусственный интеллект и как искусственный интеллект меняет нас

Правила жизни
Открыть в приложении