Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

macOS-юзеров через ClickFix атакует Odyssey Stealer — переодетый Poseidon

Эксперты CYFIRMA обнаружили множество сайтов, использующих тактику Clickfix для раздачи вредоносных AppleScript. Как оказалось, целевой троян Odyssey — это обновленный, сменивший имя инфостилер Poseidon.

Вредоносные фейки используют тайпсквоттинг и имитируют легитимные финансовые сервисы, магазин приложений Apple для macOS и сайты новостей на рынке криптовалют.

При заходе на такую площадку пользователю отображается фейковый тест CAPTCHA в стиле Cloudflare с предложением скопировать и вставить в Терминал закодированную по Base64 команду.

В результате атаки ClickFix на машину жертвы с внешнего сервера загружается AppleScript для кражи данных. Обфускация не применяется, и это сильно облегчает анализ.

При заходе на поддельный сайт с Windows-устройства инструкции по копипасту соответствующим образом изменяются — визитера просят запустить Powershell, однако на момент анализа кнопка «»Скопировать» не работала.

 

Вредоносный скрипт создает на macOS-компьютере папку временных файлов для хранения краденого. Туда копируются конфигурационные данные из менеджеров паролей, сохраненные в Chrome, Firefox и Safari учетки; приватные ключи, сид-фразы для криптокошельков, токены аутентификации из 100+ расширений браузеров; файлы из папок «Рабочий стол» и «Документы», а также пароли, полученные с помощью фейковых системных подсказок.

Украденные данные впоследствии выводятся на серверы авторов атаки в виде ZIP-файла. По состоянию на 30 июня стилера Odyssey детектируют 22 из 62 антивирусов коллекции VirusTotal.

Анализ показал, что новобранец является результатом развития и ребрендинга Poseidon Stealer, а также форком AMOS Stealer. Его центры управления по большей части размещены в России. Жертвы — в основном жители США и ЕС; страны СНГ, по всей видимости, являются табу.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru