Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Telegram уличили в бездействии вокруг китайского крипторынка на $21 млрд

Telegram снова критикуют за то, что платформа продолжает обслуживать Xinbi Guarantee — крупный китайскоязычный теневой рынок, через который, по данным исследователей, проходят услуги по отмыванию денег для криптомошенников, а также другие криминальные сервисы.

WIRED пишет, что за всё время существования площадка уже провела операций примерно на $21 млрд, а после санкций Великобритании в конце марта её активность не только не остановилась, но и продолжилась почти в прежнем темпе.

Всего за 19 дней после введения санкций через Xinbi прошло ещё около $505 млн, а общее число пользователей почти дотянуло до полумиллиона. Telegram за это время, судя по всему, не предпринял шагов для удаления всей этой инфраструктуры.

Сама площадка давно фигурирует в расследованиях как один из ключевых узлов криминальной экосистемы в Telegram. Ещё раньше Elliptic оценивала её оборот примерно в $8,4 млрд, а более свежие оценки TRM Labs поднимают общий объём уже до $24,2 млрд. Разброс в цифрах объясняется разной методикой подсчёта, но общий вывод у исследователей один: речь идёт о действительно гигантском рынке, связанном с мошенничеством и отмыванием денег.

Сам Telegram публично почти не комментирует ситуацию. По данным WIRED, на новые запросы издания компания не ответила. При этом в прошлом Telegram уже объяснял своё нежелание вводить «общие запреты» тем, что часть пользователей якобы ищет альтернативные способы международных переводов на фоне жёстких финансовых ограничений в Китае.

RSS: Новости на портале Anti-Malware.ru