Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Первый иск к OpenAI: родители винят ChatGPT в трагедии подростка

В США подан первый иск против OpenAI, качающийся суицида несовершеннолетнего. Родители 16-летнего Адама Рейна утверждают, что их сын на протяжении нескольких месяцев обсуждал с ChatGPT свои планы покончить с собой, а затем свёл счёты с жизнью.

Обычно потребительские чат-боты с ИИ оснащены защитными механизмами: если пользователь говорит о намерении причинить себе вред, система должна предлагать помощь или контакты горячих линий.

В случае Адама как пишет The New York Times, это действительно происходило — однако подростку удалось обойти защиту, объяснив, что информация о методах суицида нужна ему для «фиктивного рассказа».

OpenAI в блоге признала уязвимость подхода: модели лучше справляются с короткими диалогами, а в длинных переписках часть «обучения на безопасности» постепенно теряет эффективность. Компания утверждает, что продолжает совершенствовать свои продукты, чтобы надёжнее реагировать на чувствительные темы.

Проблема, впрочем, не ограничивается одной корпорацией. Подобный иск подан и против Character.AI, а случаи, когда ИИ-чат-боты оказывались вовлечены в трагедии или вызывали у пользователей иллюзии и навязчивые идеи, фиксировались и раньше.

История Адама стала первым судебным прецедентом против OpenAI и, вероятно, откроет новую главу дискуссии о том, где проходит граница ответственности разработчиков ИИ за последствия общения их систем с людьми.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru