Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

В России придумали, как сохранить домены для иностранных компаний

Группа «Рунити», в которую входят «Руцентр», «Рег.ру», «Рег.облако», SpaceWeb и другие компании, собирается к лету запустить сервис, который должен упростить регистрацию доменов в России для иностранных компаний. Об этом на Russian Internet Governance Forum рассказал глава группы Андрей Кузьмичев.

По сути, речь идёт об аналоге trustee-сервиса. Это схема, при которой местная компания формально становится держателем домена, а реальный владелец управляет им на основании договора.

Такой механизм давно используется в странах, где национальные домены можно регистрировать только при наличии местного присутствия — например, в Австралии, Сингапуре, Италии и Франции.

Для России это новая история. До сих пор иностранные компании могли напрямую регистрировать домены в зонах .RU, .РФ и .SU. Но ситуация меняется: с 1 сентября 2026 года в стране должно заработать новое требование — верификация владельца домена через ЕСИА. А вот отдельный порядок для иностранных компаний в проекте правил пока не прописан.

Именно на этом фоне и появляется идея нового сервиса. Предполагается, что он поможет нерезидентам сохранить возможность администрировать домены в российских зонах, даже если прямое подключение к ЕСИА для них окажется слишком сложным. Заодно, по задумке разработчиков, это должно усложнить жизнь мошенникам, которые нередко прячутся именно за иностранной регистрацией.

По словам Андрея Кузьмичева, сейчас «Рунити» работает над интерактивной процедурой идентификации клиентов. То есть сервис, судя по всему, будет не просто формальной прокладкой, а ещё и инструментом проверки тех, кто хочет воспользоваться этой схемой.

По данным Технического центра Интернет на 6 апреля 2026 года, в России зарегистрировано 6,1 млн доменов в зоне .RU, 647 тысяч в зоне .РФ и ещё 80 тысяч в зоне .SU. Только в зоне .RU насчитывается около 2 млн администраторов доменов, и хотя подавляющее большинство из них — российские владельцы, часть доменов всё же зарегистрирована на нерезидентов.

Отдельная проблема — сама подготовка рынка к новым правилам. Как отметил глава «Рунити», сложность не только в технологии, но и в том, чтобы вообще донести до администраторов доменов мысль: теперь личность придётся подтверждать через ЕСИА. За десятилетия в доменных базах накопилось много устаревших данных: у кого-то старый паспорт, у кого-то изменился адрес регистрации, а кто-то, возможно, давно не вспоминал, что его данные вообще нужно обновлять.

RSS: Новости на портале Anti-Malware.ru