Вредоносный код в отместку за увольнение

Вредоносный код в отместку за увольнение

На этой неделе суд приговорил бывшего сотрудника управления по транспортной безопасности (УТБ) к двум годам лишения свободы за попытку внедрения вредоносного кода в систему проверки пассажиров.

Сорокашестилетний Дуглас Джеймс Дучак, житель города Колорадо Спрингс, США,  в течение пяти лет трудился в УТБ в качестве аналитика департамента информационных технологий. Помимо этого, за его плечами 25 лет опыта работы на аналогичных позициях.

Согласно сообщению, 23 октября 2009 года руководство управления решило освободить его от занимаемой должности, попросив освободить место к концу месяца. Перед тем как уйти со службы, рассерженный аналитик решил отомстить работодателю, внедрив в систему вредоносный код. Вредонос мог отключить полностью систему проверки пассажиров, таким образом помешав агентам по безопасности предотвратить проникновение террористов на борт самолета.   

Но, к счастью, попытка не удалась: код не был активирован. Спустя несколько часов подозреваемый был пойман «с поличным». Дело в том, что камерами наблюдения, установленными в секретной зоне, было зафиксировано, что Дучаг воспользовавшись компьютером коллеги, скопировал вредонос в систему. По всей видимости, таким образом он пытался замести следы своих деяний.

В суде, Дучак принес извинения компании и объяснил свои действия тем, что сообщение руководства ввергло его в шок. Однако, он признал себя виновным по предявленному обвинению.

Судья же, учитывая безупречную службу подсудимого, отнеся к нему благосклонно. Помимо 2х лет лишения свободы, Дучак будет должен возместить убытки компании в размере $60587, которые были потрачены на расследование и восстановление системы, а также пройти курс терапии в психиатрической клинике.

Напомним, что по этой статье предполагается наказание в виде 10 лет лишения свободы и штрафа в размере 250000 долларов.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru