Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Сегодня в России начали замедлять работу Telegram

Власти приняли решение начать работу по замедлению мессенджера Telegram в России. Об этом РБК сообщили источник в ИТ-индустрии и два источника в профильных ведомствах. По словам собеседников издания, Роскомнадзор планирует приступить к частичному ограничению работы сервиса уже во вторник, 10 февраля.

Ещё один источник утверждает, что меры по замедлению Telegram уже применяются. РБК направил официальный запрос в Роскомнадзор, однако на момент публикации ответа не получил.

Ранее регулятор уже вводил точечные ограничения в отношении мессенджеров. Так, в августе 2025 года Роскомнадзор ограничил звонки в Telegram и WhatsApp (принадлежит Meta, признанной экстремистской и запрещённой в России).

Тогда в ведомстве объясняли это тем, что мессенджеры стали основными каналами для мошенничества, вымогательства и вовлечения граждан в диверсионную и террористическую деятельность.

В октябре Роскомнадзор сообщил о частичных ограничениях Telegram и WhatsApp «в целях противодействия преступникам». При этом в декабре глава комитета Госдумы по информационной политике Сергей Боярский заявлял, что о полной блокировке Telegram пока речи не идёт. По его словам, мессенджер давно превратился в полноценную социальную сеть, в развитие которой вложены значительные ресурсы.

В середине января член комитета Госдумы по информполитике Андрей Свинцов утверждал, что Telegram замедляют из-за недостаточно быстрой блокировки анонимных каналов. В ответ на это в Роскомнадзоре тогда заявили РБК, что новые ограничительные меры в отношении Telegram не применяются.

Однако спустя несколько дней зампред Совета по развитию цифровой экономики при Совфеде Артём Шейкин сообщил, что работа Telegram в России постепенно блокируется, связав это с отказом мессенджера выполнять требования по пресечению преступной деятельности.

На фоне этих заявлений 9 и 10 февраля пользователи в России массово жаловались на сбои в работе Telegram, следует из данных сервисов Downdetector и «Сбой.рф». В основном сообщалось о проблемах с загрузкой медиафайлов и снижении скорости работы сервиса. Аналогичные жалобы фиксировались и ранее — в середине января и в конце декабря.

Официального подтверждения начала замедления Telegram со стороны Роскомнадзора пока нет, однако совокупность заявлений и пользовательских жалоб указывает на то, что мессенджер вновь оказался под давлением регулятора.

RSS: Новости на портале Anti-Malware.ru