Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

В почте россиян всплеск спама с предложениями обойти требования 115-ФЗ

В России заметно выросло количество спам-писем, которые рекламируют полулегальные сервисы для проверки контрагентов и оформления фискальных чеков — в обход требований закона 115-ФЗ. По данным «Лаборатории Касперского», только за третий квартал 2025 года её решения заблокировали более 1,3 миллиона таких сообщений.

Как поясняют специалисты, ссылки в этих письмах ведут не на вредоносные сайты, а в чат-боты и мессенджеры, где пользователям предлагают сомнительные услуги — от фиктивных проверок контрагентов до схем, помогающих избежать налоговых рисков.

Несмотря на то что такие письма не содержат вирусов или скама, они всё же направляют на ресурсы, деятельность которых может нарушать закон.

«Сообщения с описаниями “серых” схем нарушают законодательство. Предпринимателям важно осознавать эти риски и не переходить по ссылкам из сомнительных писем. Злоумышленники становятся изобретательнее и всё чаще уводят пользователей в мессенджеры и чат-боты», — предупреждает Анна Лазаричева, спам-аналитик «Лаборатории Касперского».

В компании напоминают, что легальные инструменты для оценки рисков бизнеса существуют. Например, совместно с Точка Банком специалисты «Лаборатории Касперского» создали интерактивный гид, который помогает предпринимателям оценить уровень защиты компании от киберугроз и блокировок по 115-ФЗ.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru