Интернет-анонимы подверглись атаке "троллей"

Интернет-анонимы подверглись атаке "троллей"

Группировка хакеров-активистов, которая не раз несла возмездие во имя свободы слова и информации, выводя в оффлайн ресурсы разнообразных компаний, а пару недель назад и вовсе не оставила камня на камне от "разработчика систем защиты данных" HBGary, оказалась объектом психологической атаки. Впрочем, интерес представляет даже не сам факт нападения, а то, участники какой организации выступили в роли провокаторов.



Поиграть в опасные игры с анонимами решила... баптистская церковь Уэстборо, нечто среднее между сектой и общественно-политическим движением. Ранее она была известна иными деяниями, которые лежат вне сферы информационной безопасности, однако теперь приобщилась и к борьбе со взломщиками: ее представители заявили, будто небезызвестная группировка хакеров угрожает вывести из строя Интернет-представительство церкви, и даже предъявили широкой общественности письмо с угрозами, вроде бы полученное от анонимов. Затем организация опубликовала ответ на это письмо, щедро украсив его разнообразными оскорблениями в адрес своих корреспондентов и не очень вежливо пригласив их попытаться нанести хоть какой-то ущерб упомянутому веб-сайту.


Сами же "рыцари свободного Интернета" заявили, что подобных писем группировка не отправляла, а баптисты просто хотят привлечь к себе внимание, изобразить несчастных жертв и тем самым вызвать у людей сочувствие и к самой организации, и к ее идеям - либо же попросту спровоцировать нападение на себя и запротоколировать IP-адреса атакующих, чтобы впоследствии предъявить им судебные иски. Впрочем, по сведениям из некоторых источников, угрожающее письмо все-таки может быть настоящим; возможно, его составление является частной инициативой некоторых особо радикально настроенных анонимов.


Так или иначе, но The Register утверждает, что в IRC-каналах, использующихся для координации действий группировки, все же обсуждался вопрос о том, как поступить с провокаторами: то ли последовать общему призыву из упомянутого выше "пресс-релиза" и не обращать на них внимания, то ли нанести по ним хороший, качественный удар - "чтобы неповадно было". Некоторые анонимы, похоже, выбрали второй вариант: в настоящее время доступ к серверу церкви сильно затруднен.

" />

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru