Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Коллективная западня Коллективная западня

Почему мы верим серьезным людям с экрана

Weekend
Режиссер Халед Уануки: Популярность Чехова в Алжире вполне соответствует его популярности в России Режиссер Халед Уануки: Популярность Чехова в Алжире вполне соответствует его популярности в России

Халед Уануки о его взглядах на русскую литературу и впечатлениях от фестиваля

СНОБ
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Лимонад за подводные лодки: как Pepsi выкупала у СССР военные корабли Лимонад за подводные лодки: как Pepsi выкупала у СССР военные корабли

Pepsi была крупнейшей морской военной силой в мире — как так вышло?

ТехИнсайдер
5 вредных мифов о психиатрии, которые мешают вовремя получить помощь 5 вредных мифов о психиатрии, которые мешают вовремя получить помощь

Какие мифы о психиатрии встречаются чаще всего и что лежит в их основе?

Psychologies
Палеоантропологи реконструировали череп жившего около миллиона лет назад гоминина Юньсянь-2 Палеоантропологи реконструировали череп жившего около миллиона лет назад гоминина Юньсянь-2

Палеоантропологи реконструировали деформированный череп Юньсянь-2

N+1
Сексуальный паразитизм сделал удильщиков самыми разнообразными глубоководными рыбами Сексуальный паразитизм сделал удильщиков самыми разнообразными глубоководными рыбами

Как удильщики стали самой разнообразной группой позвоночных в батипелагиали

N+1
Неизвестный флот Неизвестный флот

Избранные главы документальной книги Алексея Иванова «Речфлот»

RR Люкс.Личности.Бизнес.
Куратор выставки в «Доме на Хлебном» Геолина Моргулис — о Фрейде и гибридной галерее Куратор выставки в «Доме на Хлебном» Геолина Моргулис — о Фрейде и гибридной галерее

Геолина Моргулис: как перекликаются философия и искусство

СНОБ
«Ищу мужа с шанхайской пропиской»: как работают китайские брачные рынки «Ищу мужа с шанхайской пропиской»: как работают китайские брачные рынки

Отношения в Китае: стихийные брачные рынки под открытым небом и феминизм

Forbes
Ученым удалось воссоздать лицо неандертальской женщины возрастом 75 тыс. лет. Ее нашли в братской пещерной могиле Ученым удалось воссоздать лицо неандертальской женщины возрастом 75 тыс. лет. Ее нашли в братской пещерной могиле

Внешность людей и неандертальцев отличалась не так сильно, как думали ученые

Inc.
8 вещей, которые надо сделать на кухне перед тем, как ты уедешь в отпуск 8 вещей, которые надо сделать на кухне перед тем, как ты уедешь в отпуск

Подготовительная работа на кухне перед отпуском: что нужно учесть?

VOICE
Выиграть жену Выиграть жену

Интеллектуальные игры сопровождали калмыков с детства

Вокруг света
Владимир Владимирцев: Во всем мире камни делят на цветные и бриллианты, но не в России Владимир Владимирцев: Во всем мире камни делят на цветные и бриллианты, но не в России

В чем тонкости русской огранки, как сочетать творчество и законы физики

СНОБ
Хуже, чем преступление Хуже, чем преступление

Как появилась фраза «Это хуже, чем преступление, это ошибка»?

Дилетант
Быть «железной леди»: как Марджи Робертс стала Маргарет Тэтчер Быть «железной леди»: как Марджи Робертс стала Маргарет Тэтчер

Какой была Маргарет Тэтчер и почему её все ненавидели?

Правила жизни
Восстанавливаем водный баланс: как заставить себя пить больше воды Восстанавливаем водный баланс: как заставить себя пить больше воды

Что делать, если пить 8 стаканов в день не получается?

ТехИнсайдер
Сказка о гендерном равенстве: почему женщины в России зарабатывают меньше мужчин Сказка о гендерном равенстве: почему женщины в России зарабатывают меньше мужчин

Откуда берется гендерное неравенство в зарплате?

Forbes
Спортивный уголок Спортивный уголок

5 способов организовать место для тренировок в квартире

Лиза
Насколько добрый мой город? Насколько добрый мой город?

Репортаж с конференции «Про развитие городов и сообществ»

Позитивные изменения
Инновации, для которых нужно немного сойти с ума Инновации, для которых нужно немного сойти с ума

Как небольшая фирма начала выпускать лазерное оборудование мирового класса

Монокль
«Тишина на площадке»: как дети подвергались домогательствам на проектах Nickelodeon «Тишина на площадке»: как дети подвергались домогательствам на проектах Nickelodeon

«Тишина на площадке»: самая показательная история о цене подростковой славы

Forbes
Екатерина Великая в Москве Екатерина Великая в Москве

Екатерина Великая не любила Москву, но так ли всё однозначно?

Знание – сила
Рисунок, меняющий жизни: что такое нейрографика и как она помогает исполнять мечты Рисунок, меняющий жизни: что такое нейрографика и как она помогает исполнять мечты

Рисуй и рефлексируй! Таков негласный девиз любителей нейрографики

Psychologies
Вышедшая после убийства матери Джипси Роуз Бланшар призналась, что мечтает о работе в Макдоналдсе Вышедшая после убийства матери Джипси Роуз Бланшар призналась, что мечтает о работе в Макдоналдсе

Почему преступникам сложно интегрироваться в общество и могут ли они это сделать

Psychologies
Неочевидная болезнь, которая может вас убить: когда нужно проверить функцию щитовидной железы Неочевидная болезнь, которая может вас убить: когда нужно проверить функцию щитовидной железы

Если вы быстро устаете, а нервная система сбоит — проверьте щитовидную железу

ТехИнсайдер
Надежда Позднякова: Сертифицированные бриллианты — это валюта, которая работает по всему миру Надежда Позднякова: Сертифицированные бриллианты — это валюта, которая работает по всему миру

О том, какие камни имеют шанс стать инвестиционным инструментом

СНОБ
Насколько обоснована защита авторских прав и как быть с компьютерным кодом Насколько обоснована защита авторских прав и как быть с компьютерным кодом

Что сейчас на переднем крае «битвы копирайтов»?

Forbes
Вас называют «папиной дочкой»? Узнайте, какие опасности скрывает этот архетип Вас называют «папиной дочкой»? Узнайте, какие опасности скрывает этот архетип

Чем архетип «папиной дочки» может быть опасен для дочери и для семьи в целом

Psychologies
Что такое неглект и как с ним бороться Что такое неглект и как с ним бороться

Неглект: что такое пассивное насилие? Как оно проявляется?

РБК
Открыть в приложении