Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Запрет на ИИ Anthropic может ускорить гонку суверенных нейросетей

История вокруг Anthropic стремительно превращается из технологической новости в политическую. Всего через несколько дней после выпуска новых ИИ-моделей Claude Mythos 5 и Claude Fable 5 доступ к ним оказался закрыт. Эксперты уже заговорили о цифровом противостоянии и суверенитете нейросетей.

По данным американских СМИ, Министерство торговли США потребовало от Anthropic запретить использование моделей всеми, кто не является гражданином США.

Причём речь шла не только о клиентах компании, но даже о сотрудниках самой Anthropic за пределами страны. На выполнение требования якобы отвели всего 90 минут.

Компания сочла такую задачу невыполнимой и в итоге полностью закрыла доступ к новым моделям.

Ситуация выглядит беспрецедентной для рынка генеративного ИИ. Если раньше власти разных стран ограничивали отдельные сервисы, приложения или поставки оборудования, то теперь под экспортный контроль фактически попали когнитивные возможности коммерческой нейросети.

Особый интерес к Claude Mythos 5 объясняется её возможностями. По заявлениям разработчиков, модель способна искать уязвимости в программном обеспечении эффективнее человека, восстанавливать исходный код и решать сложные инженерные задачи. Именно эти функции, по мнению ряда экспертов, могли вызвать опасения американских властей.

На рынке уже заговорили о новом этапе цифрового противостояния. Если раньше государства боролись за контроль над данными и микрочипами, то теперь объектом регулирования становятся сами интеллектуальные возможности ИИ.

Последствия могут оказаться куда шире, чем проблемы одной компании. После инцидента политики в Канаде и Европе уже начали говорить о необходимости ускорять разработку собственных ИИ-моделей и снижать зависимость от американских платформ.

Эксперты в беседе с «Известиями» отмечают, что история с Anthropic стала наглядным напоминанием: любой зарубежный ИИ-сервис может оказаться недоступен не из-за технических проблем, а по политическому решению.

На этом фоне всё чаще звучат разговоры о цифровом суверенитете, локальных моделях и мультивендорном подходе. Потому что зависимость от одного поставщика внезапно превратилась из вопроса удобства в вопрос национальной стратегии.

RSS: Новости на портале Anti-Malware.ru