Попытка найти любовь в интернете может дорого стоить

Попытка найти любовь в интернете может дорого стоить

...

PandaLabs обнаружила большое количество электронных сообщений, якобы отправляемых пользователями, желающими добавить получателя в друзья, которые на самом деле являются мошенничествами.

Согласно данным, полученным PandaLabs, суть таких сообщений заключалась в следующем: предполагаемый отправитель – как правило, девушка – сообщал получателю (обычно мужчине), что она якобы нашла его профиль в социальной сети и захотела познакомиться. Если получатель отвечал на сообщение, «девушка» начинала интересоваться его предпочтениями и т.д., говорила, что она из России или другой страны Восточной Европы и подумывает о поездке за границу. Как только дружеские отношения крепли, девушка выдвигала идею о поездке в страну, где живет получатель сообщений. Все это сопровождалось фотографиями девушки.

Затем следует критическая ситуация. Как только девушка уже почти готова покинуть родную страну, чтобы встретиться с новым другом, в последнюю минуту появляется проблема, например, задержка с визой, необходимость дать взятку и т.д. Чтобы справиться с проблемой, девушка просит друга помочь ей небольшой суммой денег, которая никогда не превышает $500. Это обстоятельство явно указывает на мошеннический умысел; девушки не существует, она лишь плод воображения тех, кто пытается обмануть пользователя.

Если пользователь высылает деньги, то история продолжает развиваться дальше в том же ключе: появляются новые проблемы, которые заставляют жертву посылать еще больше наличных. Девушка же никогда не сможет покинуть свою страну, потому что ее не существует.

“Еще несколько лет назад этот тип мошенничества возбуждал гораздо большее число подозрений, чем сейчас. Сегодня огромное число пользователей вовлечено в социальные сети, и подобные аферы стали казаться более убедительными. Учитывая огромное количество личных фотографий и электронных адресов, выложенных на публичных доменах, люди считают вполне правдоподобным тот факт, что кто-то, посмотрев их фото, захотел связаться с ними лично”, говорит Луис Корронс, технический директор PandaLabs.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru