Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Штрафы за рекламу в Instagram* и Facebook* могут возрасти до 1 млн рублей

Депутаты Госдумы РФ от фракции «Единая Россия» подготовили законопроект, ужесточающий наказание за размещение рекламы в Instagram и Facebook (обе соцсети признаны в России экстремистскими и запрещены, как и их головная корпорация Meta).

Предложенные поправки к ч. 1 ст. 14.3 КоАП увеличивают штрафы за такие правонарушения: для физлиц — до 80 тыс. руб. (сейчас от 2 до 2,5 тыс.), для юрлиц — до 1 млн руб. (вместо 100-500 тыс.). Документ направлен для оценки в Верховный суд, Генпрокуратуру, Минюст и МВД.

В обоснование своих предложений авторы законопроекта указали на то, что существующие размеры штрафов слишком незначительны, чтобы пресечь размещение рекламы на запрещенных в России площадках. Получаемые от этой деятельности доходы многократно превышают наказание рублем.

Закрепленный законом «О рекламе» запрет на подобную монетизацию ресурсов, уличенных в дезинформации, публикации экстремистских материалов, мошенничестве и проч., вступил в силу 1 сентября. Основная цель соответствующих поправок — перевод рекламной деятельности на российские платформы.

Тем не менее русскоязычные блогеры продолжают использовать с этой целью Instagram и Facebook — открыто либо в форме рекомендаций, исчезающих через 24 часа, что значительно затрудняет контроль таких публикаций.

По данным «Известий», репост в сторис Instagram стоит не менее 7 тыс. рублей. Правда, аудитория зарубежного файлообменника уже стала снижаться.

По данным российской Ассоциации блогеров и агентств, на которые ссылается издание, к осени 2025 года первое место на рынке по популярности занял Telegram с долей 46,3%, второе — YouTube (21,2%), третье — «ВКонтакте» (12,7%). Начал набирать обороты юный мессенджер MAX, сейчас его вклад составляет 0,6%.

Опрошенные журналистами эксперты опасаются, что ужесточение санкций не даст искомый эффект, а лишь осложнит работу рынка. По их мнению, более действенным было бы повышение привлекательности отечественных платформ — за счет расширения функциональности, аудитории и возможностей монетизации.

* веб-сервис признан экстремистской и запрещен в России, как и головная корпорация Meta

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru