Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Brash: новая уязвимость в Chromium роняет браузеры и замораживает ПК

В браузерах на базе Chromium нашли критическую ошибку, из-за которой можно за несколько секунд «уронить» весь браузер, а иногда и привести к зависанию ОС. Уязвимость выявил исследователь Хосе Пино, опубликовав на GitHub соответствующий эксплойт под названием Brash.

Brash затрагивает Blink — движок рендеринга, на котором работают Chrome, Edge, Brave, Vivaldi и другие популярные браузеры. По данным StatCounter, Chrome используют более 3 млрд человек по всему миру, так что масштабы проблемы огромные.

Пино проверил свой эксплойт на 11 браузерах под Android, macOS, Windows и Linux — и в девяти из них браузер «падал» за 15-60 секунд. Проблема наблюдается в версиях Chromium 143.0.7483.0 и выше.

Причина проста: Blink не ограничивает частоту обновления document.title — элемента, отвечающего за заголовок вкладки. Это позволяет загружать миллионы изменений в секунду, перегружая основной поток браузера. В результате интерфейс зависает, вкладки перестают отвечать, а через полминуты программа полностью вылетает.

В издании The Register протестировали Brash на Microsoft Edge — браузер не только рухнул через полминуты, но и «съел» 18 ГБ оперативной памяти одной вкладкой, после чего зависла вся система.

По словам Пино, он сообщил об ошибке команде Chromium ещё 28 августа, а затем повторно — 30 августа, но ответа так и не получил. Он считает, что проблему придётся устранять каждой компании отдельно, поскольку они вносят свои изменения в Chromium.

В списке уязвимых браузеров — Chrome, Edge, Brave, Vivaldi, Opera, Arc, Dia, Perplexity Comet и ChatGPT Atlas. Только Google и Brave ответили журналистам: первая изучает проблему, вторая пообещала выпустить фикс, когда он появится в Chromium.

Браузеры, использующие другие движки — Firefox (Gecko) и Safari (WebKit), а также все браузеры на iOS — уязвимости не подвержены.

Пино пояснил, что решил опубликовать PoC, потому что два месяца ожидания без реакции со стороны разработчиков — слишком долго. По его словам, публичность поможет ускорить исправление проблемы, которая затрагивает миллиарды пользователей.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru