Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Рекламодатели нарастили бюджеты в Telegram на 11% вопреки угрозе запрета

Разговоров о возможном запрете рекламы в Telegram становится всё больше, но бюджеты рекламодателей, похоже, об этом не знают. По данным МТС AdTech, в мае инвестиции в продвижение через мессенджер выросли на 11% по сравнению с апрелем. Причём рост оказался вполне здоровым.

Стоимость тысячи показов (CPM), по данным «Коммерсанта», увеличилась всего на 4%, зато кликабельность рекламы (CTR) подскочила сразу на 22%.

Одновременно цена одного клика снизилась на 10%, что сделало размещения ещё привлекательнее для бизнеса.

Самый заметный рост показали каналы из сегмента FMCG. Их аудитория увеличилась более чем в два раза, а рекламные бюджеты выросли на 88%. У СМИ просмотры прибавили около 40%, практически повторив динамику рекламных вложений.

Рынок постепенно приходит в себя после мартовского заявления ФАС, которая сообщила, что с конца 2026 года реклама в Telegram может быть признана незаконной. Несмотря на это, банки, ретейл и девелоперы продолжают возвращать бюджеты на площадку, а крупные компании по-прежнему проводят тендеры на размещения в Telegram на следующий год.

Участники рынка объясняют ситуацию по-разному. Одни считают, что рекламодатели пытаются успеть воспользоваться возможностями Telegram до вступления ограничений в силу. Другие уверены, что причина гораздо проще: Telegram остаётся крупнейшей и наиболее эффективной площадкой на рынке.

По данным Mediascope, месячная аудитория Telegram в апреле достигла 87,9 млн человек. Для сравнения, национальный мессенджер МАКС собрал 85,35 млн пользователей.

При этом МАКС тоже активно растёт. По оценкам Telega.in, с февраля по май оборот рекламных размещений в мессенджере увеличился более чем в шесть раз, а число заказов выросло в 4,5 раза. Однако эксперты отмечают, что Telegram пока выигрывает не количеством установок, а качеством аудитории и доверием к контенту.

Интересно, что рынок уже начал готовиться к возможным юридическим рискам. По данным источников «Коммерсанта», некоторые агентства включают в договоры специальные условия, по которым возможные штрафы за рекламу в Telegram будет оплачивать заказчик, а не посредник.

Получается любопытная картина: чем громче разговоры о запретах, тем активнее рекламодатели продолжают покупать рекламу в Telegram.

RSS: Новости на портале Anti-Malware.ru