Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Одна ссылка в Copilot могла слить почту, содержимое OneDrive и SharePoint

Исследователи из Varonis Threat Labs обнаружили в Microsoft 365 Copilot опасную уязвимость SearchLeak, которая позволяла злоумышленникам похищать корпоративные данные буквально через одну ссылку. Под угрозой оказались электронная почта, заметки встреч, документы OneDrive, файлы SharePoint и другие данные, к которым пользователь имел доступ через Copilot.

Схема атаки выглядела так: злоумышленник отправлял жертве специальную ссылку на Microsoft 365 Copilot Search через почту, Slack или любой другой канал связи.

Внутри ссылки был спрятан вредоносный запрос, который Copilot воспринимал как инструкцию к действию. После открытия такой ссылки ИИ мог получить доступ ко внутренним данным пользователя, найти нужные письма или документы и передать информацию на сервер атакующего.

Особенно неприятен тот факт, что для работы атаки не требовалось скачивать файлы, устанавливать расширения или запускать подозрительные программы. Достаточно было открыть ссылку.

 

Для обхода защитных механизмов исследователи использовали хитрую комбинацию. Данные выводились через специальный тег изображения, связанный с сервисом поиска по картинкам Bing. Поскольку Bing является доверенным сервисом Microsoft, часть стандартных ограничений безопасности фактически обходилась.

В результате злоумышленники теоретически могли получать темы писем, содержимое сообщений, коды многофакторной аутентификации, ссылки для сброса паролей, данные встреч и конфиденциальные корпоративные документы.

В Microsoft уже закрыли проблему. Уязвимость получила идентификатор CVE-2026-42824, её закрыли на стороне сервиса. Пользователям дополнительно ничего делать не нужно.

Однако исследователи считают, что история гораздо серьёзнее одной конкретной ошибки. По их мнению, SearchLeak демонстрирует целый класс рисков, характерных для корпоративных ИИ-помощников, которые одновременно работают с внешними данными, внутренними документами и способны выполнять действия от имени пользователя.

RSS: Новости на портале Anti-Malware.ru