Вирусописатели готовятся ко Дню Святого Валентина

Вирусописатели готовятся ко Дню Святого Валентина

Классическая ситуация: в преддверии 14 февраля разработчики решений IT-безопасности сталкиваются с новой волной вредоносного ПО, которое пытается заразить компьютеры пользователей под видом поздравительных открыток на День Святого Валентина. Первым червем в этом году оказался Waledac.C.

Обычно данный вид атаки распространяется по электронной почте под видом поздравительных открыток с днем Святого Валентина, адресованных конкретным людям. Сообщение включает ссылку для скачивания открытки. Если пользователь нажимает на ссылку, чтобы скачать интересующий его файл, на его ПК на самом деле загружается червь Waledac.C.

Эти вредоносные файлы носят романтичные названия, имеющие отношение ко дню святого Валентина, например:

youandme.exe
onlyyou.exe
you.exe
meandyou.exe

После того, как червь закрепляется в системе, он использует компьютер для рассылки спама. Для этого червь собирает электронные адреса, хранящиеся на компьютере, и затем рассылает по ним письмо со ссылкой на вредоносный файл. “Несмотря на то, что мы знаем, как кибер-преступники каждый год используют праздник День Святого Валентина для осуществления вредоносных действий, все равно подобные атаки могут спровоцировать множественные инфекции”, - говорит Луис Корронс, Технический директор PandaLabs.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru