«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Был ли аншлюс ГДР? Был ли аншлюс ГДР?

Читаем новый единый учебник всеобщей истории для 11 класса

Дилетант
Кто стоит за хитами: малоизвестные авторы популярных треков Руви, Lyriq и группа Dabro Кто стоит за хитами: малоизвестные авторы популярных треков Руви, Lyriq и группа Dabro

Сонграйтеры, написавшие настоящие современные хиты

Maxim
Почему у мужчин «пунктик» на анальном сексе? Почему у мужчин «пунктик» на анальном сексе?

Откуда у мужчин эта причудливая фиксация на анальном сексе

Cosmopolitan
Открыто Открыто

Разговор с Авиве Левинсон о семье и фестивале Open House

Seasons of life
Кто трясет Землю? Кто трясет Землю?

Первые гипотезы об устройстве земной коры зародились еще в античности

Вокруг света
Музыкальная пауза: как Тупак Шакур воспел Западное побережье в California Love Музыкальная пауза: как Тупак Шакур воспел Западное побережье в California Love

Как Тупак Шакур записал один из главных хитов в карьере — California Love

Правила жизни
Черный список продуктов, которых стоит избегать перед авиаперелетом Черный список продуктов, которых стоит избегать перед авиаперелетом

Если вы не хотите, чтобы полет превратился в пытку, следуйте этим рекомендациям

ТехИнсайдер
Осиная талия. Привычки питания, которые мешают тебе похудеть в талии Осиная талия. Привычки питания, которые мешают тебе похудеть в талии

Потеря веса – не всегда простая задача. А как похудеть в области талии?

Лиза
Животный мир Животный мир

Как вписать анималистический принт в интерьер, чтобы это не выглядело безвкусным

Лиза
Золотой Плёс Золотой Плёс

Приехать в Плес и не влюбиться в него невозможно!

Лиза
Как выбрать устрицы и с чем их сочетать: объясняют эксперты Как выбрать устрицы и с чем их сочетать: объясняют эксперты

Чем хороши и полезны устрицы, как получить удовольствие от деликатеса?

РБК
Как отказать абьюзеру: техника от психолога Как отказать абьюзеру: техника от психолога

Как действовать, если в вашем окружении обнаружился абьюзер?

Psychologies
Изобрели велосипед: как два брата из Ярославля покоряют водный мир Изобрели велосипед: как два брата из Ярославля покоряют водный мир

Почему братья Лукьяновы решили бросить вызов водной стихии

Forbes
Сел и уснул: 10 лайфхаков, как хорошенько выспаться в самолете Сел и уснул: 10 лайфхаков, как хорошенько выспаться в самолете

Как «отключиться» от внешних раздражителей и погрузиться в сон на время полета

ТехИнсайдер
Советский супервездеход: УАЗ-3907 «Ягуар» Советский супервездеход: УАЗ-3907 «Ягуар»

УАЗ-3907 «Ягуар» легко проходил огонь и воду, но медных труб не услышал

Maxim
Экономика Оренбургской области: от «сырьевого региона» к устойчивому развитию Экономика Оренбургской области: от «сырьевого региона» к устойчивому развитию

Чем было Оренбуржье за годы своего развития?

ФедералПресс
Музей на свалке Музей на свалке

Экспозицию этого музея сравнивают с машиной времени

Отдых в России
Как в оранжерее Как в оранжерее

Лучшая гарантия здорового роста комнатных растений – своевременный уход

Лиза
Женская импульсивность: «виноваты» гормоны и Луна Женская импульсивность: «виноваты» гормоны и Луна

Что управляет «приливами» и «отливами» в организме женщины?

Здоровье
Будь готов! Будь готов!

Как сохранить грибы в морозилке

Лиза
Коррупционеры в белоснежных тогах: верно ли мы думаем о Римской империи? Коррупционеры в белоснежных тогах: верно ли мы думаем о Римской империи?

Путешествие в мир алчности и бесстыдства Римской империи

Правила жизни
Татьяна Правдина: «Когда Зяма смотрел свои фильмы, всегда говорил: «Это — не то!» Татьяна Правдина: «Когда Зяма смотрел свои фильмы, всегда говорил: «Это — не то!»

Актеру Зиновию Гердту было 44 года, а переводчице Татьяне Правдиной — 32

Коллекция. Караван историй
«Я думала, они жадные и не женятся»: как в 30 лет я вышла замуж за француза и ни разу об этом не пожалела «Я думала, они жадные и не женятся»: как в 30 лет я вышла замуж за француза и ни разу об этом не пожалела

История нашей героини, которая неожиданно вышла замуж за иностранца

VOICE
Любовь, случайности и cash Любовь, случайности и cash

Какие функции всегда должны оставаться за лидером, а какие необходимо передавать

FP. BusinessReview
Детка, ты просто космос Детка, ты просто космос

Валери Зоидова о первой потерянной любви и несогласии со Скарлетт О'Харой

VOICE
Обман мнениями: нейросети способны незаметно менять точку зрения пользователей Обман мнениями: нейросети способны незаметно менять точку зрения пользователей

Умные помощники способны незаметно менять мышление пользователя

ФедералПресс
Медведев проиграл в финале: как он извлекал пользу и деньги из прошлых поражений Медведев проиграл в финале: как он извлекал пользу и деньги из прошлых поражений

Как на Даниила Медведева и его карьеру влияли поражения в «мэйджорах»

Forbes
Что можно найти на дне Байкала: дома и поезда Что можно найти на дне Байкала: дома и поезда

Как сейчас выглядит дно самого глубокого озера на планете?

ФедералПресс
Разумный Макс Разумный Макс

Флагманский кроссовер Chery дебютирует обновленным

Автопилот
Минвостокразвития России о туризме: «Сперва нужно создавать условия» Минвостокразвития России о туризме: «Сперва нужно создавать условия»

Как развивается дальневосточный туризм и чем в силах помочь коренные народы

ФедералПресс
Открыть в приложении