Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

В России развивается новая вариация схемы с домофонными ключами

Мошенники начали активно применять новую модификацию старой схемы обмана с использованием домофонных ключей. Теперь под предлогом замены или получения новых кодов для доступа в подъезд они выманивают у граждан коды авторизации с Портала Госуслуг. Такой подход позволяет аферистам получить полный контроль над учётной записью жертвы и использовать её в своих целях.

Замену ключей для домофонов злоумышленники эксплуатируют уже около двух лет. Первоначально это была фишинговая схема, где QR-код на бумажном объявлении вёл на поддельный сайт. Целью атакующих был сбор реквизитов банковских карт под видом оплаты новых ключей.

В феврале 2025 года МВД предупредило о видоизменении этой схемы. Тогда мишенью злоумышленников стал код авторизации на Госуслугах, который рассылался жертвам под видом индивидуального домофонного кода. Мошенники убеждали граждан продиктовать его по телефону.

Как сообщило РИА Новости, теперь схема стала двухэтапной. Сначала жертве звонят злоумышленники, представляясь сотрудниками управляющей компании. Они называют точный адрес и предлагают получить «персональный код» для домофона. Сообщение с кодом приходит в СМС от Госуслуг.

Через некоторое время начинается второй этап: жертве звонят уже якобы представители службы технической поддержки Госуслуг. Они сообщают о попытках взлома аккаунта и просят назвать ранее присланный код. После этого аферисты получают доступ к учётной записи и могут ею распоряжаться.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru