Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

В Chrome 144 закрыли 10 уязвимостей, включая опасные баги в движке V8

Google выпустила Chrome 144 для десктопов, закрыв сразу 10 уязвимостей, включая несколько проблем высокой степени риска в движке V8, который отвечает за обработку JavaScript. Обновление уже начало распространяться с 13 января и доступно для Windows, macOS и Linux.

Новые версии браузера — Chrome 144.0.7559.59 для Linux и 144.0.7559.59/60 для Windows и macOS — приносят не только патчи, но и небольшие улучшения производительности.

Как обычно, апдейт раскатывается постепенно, так что до всех пользователей он дойдёт в течение ближайших дней и недель.

Основной фокус обновления — на уязвимостях в JavaScript-движке V8. Исследователи обнаружили несколько ошибок, связанных с выходом за пределы памяти и некорректной реализацией логики. В худшем сценарии такие баги могут привести к выполнению произвольного кода или выходу за пределы песочницы браузера.

Одна из наиболее опасных уязвимостей, CVE-2026-0899, была обнаружена исследователем под ником @p1nky4745 ещё в ноябре 2025 года. За находку Google выплатила вознаграждение в размере 8 тысяч долларов. Всего в релизе закрыты четыре уязвимости с высокой степенью риска, четыре — со средней и две — с низкой.

Помимо V8, исправления затронули и другие компоненты Chrome: движок рендеринга Blink, механизм загрузки файлов, работу с цифровыми удостоверениями, сетевые политики и элементы интерфейса, связанные с безопасностью.

Google отдельно отметила вклад исследовательского сообщества. За найденные уязвимости участники программы баг-баунти получили вознаграждения от 500 до 8 000 долларов. При этом компания напомнила, что значительная часть проблем выявляется с помощью автоматизированных инструментов — таких как AddressSanitizer, MemorySanitizer, libFuzzer и других средств анализа памяти и поведения кода.

Обновиться можно стандартным способом — через встроенный механизм Chrome. Также свежую версию браузера можно скачать с официального сайта Google. Учитывая количество исправленных уязвимостей и их серьёзность, откладывать обновление явно не стоит.

CVE-идентификатор Степень опасности Затронутый компонент Класс уязвимости Сообщивший исследователь Дата репорта Сумма вознаграждения
CVE-2026-0899 Высокая V8 Out of bounds memory access @p1nky4745 2025-11-08 $8,000
CVE-2026-0900 Высокая V8 Inappropriate implementation Google 2025-12-03 TBD
CVE-2026-0901 Высокая Blink Inappropriate implementation Irvan Kurniawan (sourc7) 2021-10-04 TBD
CVE-2026-0902 Средняя V8 Inappropriate implementation 303f06e3 2025-12-16 $4,000
CVE-2026-0903 Средняя Downloads Insufficient validation of untrusted input Azur 2025-09-13 $3,000
CVE-2026-0904 Средняя Digital Credentials Incorrect security UI Hafiizh 2025-10-15 $1,000
CVE-2026-0905 Средняя Network Insufficient policy enforcement Google 2025-12-02 TBD
CVE-2026-0906 Низкая UI Incorrect security UI Khalil Zhani 2025-12-10 $2,000
CVE-2026-0907 Низкая Split View Incorrect security UI Hafiizh 2025-09-12 $500
CVE-2026-0908 Низкая ANGLE Use after free Glitchers BoB 14th. 2025-10-15 TBD

RSS: Новости на портале Anti-Malware.ru