Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Только 10% россиян готовы отказаться от VPN из-за блокировок

Несмотря на усиление ограничений и регулярные проблемы с доступностью VPN-сервисов, большинство пользователей не собираются от них отказываться. К такому выводу пришли аналитики MAR CONSULT. Согласно исследованию, VPN используют более половины опрошенных россиян: 27% делают это регулярно, ещё 25% — время от времени.

Если добавить тех, чьи родственники и знакомые пользуются такими сервисами, VPN так или иначе присутствует в жизни 63% респондентов.

Главная причина использования предсказуема — доступ к заблокированным сайтам и сервисам. Об этом сообщили 61% пользователей. Также VPN применяют для доступа к зарубежным сервисам и ценам, обхода географических ограничений и просмотра контента, недоступного в России.

При этом ограничения всё же создают проблемы. Около 30% опрошенных заявили, что пользоваться VPN стало значительно сложнее. Ещё 21% столкнулись с трудностями, но нашли способы их обойти.

Чаще всего пользователи жалуются на нестабильную работу сервисов и постоянные обрывы соединения. На втором месте — необходимость искать новые VPN после блокировки старых. Замыкает тройку снижение скорости работы.

Однако самое интересное касается будущего. Более половины участников опроса уверены, что полностью победить VPN не получится. По мнению 54% респондентов, пользователи продолжат искать обходные пути независимо от новых ограничений.

Собственные планы россиян подтверждают этот вывод. 31% собираются пользоваться текущим VPN до тех пор, пока он работает. Ещё 15% готовы перейти на другой сервис, а 14% — использовать бесплатные решения, если возникнут проблемы с оплатой.

Полностью отказаться от VPN готовы лишь 10% опрошенных. Для сравнения, на отечественные альтернативы планируют перейти только 8%.

В целом отношение к блокировкам остаётся скорее негативным. 43% респондентов не одобряют ограничения VPN, тогда как поддерживают их лишь 14%.

По мнению генерального директора MAR CONSULT Дмитрия Шиманова, блокировки создают больше проблем для легального использования современных технологий, бизнеса и образования, чем для доступа к нежелательным ресурсам. А пользователи, как показывает исследование, всё равно продолжают искать новые способы обхода ограничений.

RSS: Новости на портале Anti-Malware.ru