Антиспамы впервые протестируют

Антиспамы впервые протестируют

...

Virus Bulletin планирует провести первый тест решений, предназначенных для защиты от спама. Предварительные итоги ожидаются в конце феврале, в начале марта 2009 г. Эксперты и участники рынка ИБ давно говорили о необходимости разработки и проведения тестов для антиспамов.

Но в отличие от антивирусной индустрии, где, кстати сказать, тоже не все так однозначно, выработать единые подходы и методики, устраивающие большинство крайне сложно. И дело здесь не только в качестве самого продукта. Очень многое зависит от набора тестовых сообщений, который отличается от реального потока и во времени, и географически и по другим параметрам. «Впервые разработчикам о новом тесте было объявлено в октябре 2008 г. во время конференции VB2008 в Оттаве, - рассказал CNews Андрей Никишин, директор департамента контентной фильтрации «Лаборатории Касперского». - Тогда же прошел ряд встреч с вендорами, и совместными усилиями была выработана методология.

На наш взгляд, методология тестирования антиспам-решений адекватна. За одним небольшим исключением. В отличие от вирусов, потоки нежелательных сообщений более локальны – скажем, российские пользователи получают больше спама на русском, а китайские – на китайском». Virus Bulletin планирует использовать в качестве источника спама сообщения с международных (COM) почтовых доменов и, разумеется, доля не англоязычных сообщений там будет наибольшей. Что не на 100% будет отражать ситуацию для стран с высокой долей локального спама. «Мы надеемся, что неизбежные небольшие шероховатости первого тестирования будут в дальнейшем отшлифованы, и мы получим хороший индустриальный тест», - говорит Андрей Никишин. В "Доктор Веб" надеются, что со временем VB наберет необходимый опыт в тестировании антиспамов и, может быть, сможет «избежать в нем тех ошибок, которые присутствуют в их антивирусных тестах».

Позицию представителей этого вендора можно понять, они ее не раз озвучивали при критике VB. Практически любой тест антивурусов, это ни в коем случае ни тест решения целиком, а только лишь некоторого его функционала, например, скорости сканирования, качества детектирования или самозащиты. В результате пользователь зачастую вводится в заблуждение относительно возможностей продукта в целом.

Системный инженер Symantec в России и СНГ Кирилл Керценбаум, полагает, что расширение спектра технологий ИБ, которые хочет охватить своим вниманием VB, выглядит вполне закономерно. Однако, своевременность такого шага трудно оценить высоко, так как антиспам-технологии настолько плотно вошли в нашу жизнь, что на результаты подобных тестов мало кто будет обращать большое внимание. Собственно, подобная ситуация уже произошла с тестами антивирусов, которые регулярно и достаточно давно проводит Virus Bulletin.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru