Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

В Android-версии МАКС нашли трекеры и отправку файлов на apptracer.ru

Исследователь, проанализировавший APK-файл российского мессенджера МАКС через декомпилятор JADX, заявил об обнаружении в коде целого набора механизмов для сбора телеметрии, аудита разрешений устройства и загрузки файлов на внешние серверы.

Среди самых обсуждаемых находок — интеграция SDK MyTracker. По словам автора исследования, в коде присутствуют функции, связанные с анализом установленных приложений на устройстве, настройками геолокации и антифрод-модулями.

Также упоминаются механизмы рефлексивной загрузки компонентов, которые теоретически позволяют активировать отдельные функции через серверную конфигурацию.

Отдельное внимание привлёк класс DailyAnalyticsWorker. Согласно опубликованному разбору, он ежедневно собирает информацию о статусе ключевых разрешений Android: доступа к контактам, камере, микрофону, геолокации, галерее, файловой системе и пуш-уведомлениям. Затем эти данные отправляются в аналитическую систему под тегом PERMISSION.

Ещё одна находка связана с компонентом SampleUploadWorker. В коде обнаружены обращения к домену sdk-api.apptracer.ru и механизмы двухэтапной загрузки файлов через API initUpload и upload. Исследователь утверждает, что система поддерживает передачу файлов вместе с дополнительными метаданными, которые могут задаваться сервером.

Кроме того, в APK нашли модуль DpsInitProvider, который запускается ещё до старта основного приложения через механизм ContentProvider. Автор исследования считает, что такое решение усложняет статический анализ и позволяет инициализировать дополнительные сервисы на раннем этапе запуска.

Также в отчёте упоминаются компоненты для фоновой загрузки вложений, обработки событий чатов и сообщений через EventBus, а также различные подсистемы логирования и аналитики.

При этом исследователь отдельно подчёркивает, что анализ проводился исключительно по публично доступному APK-файлу. Он не утверждает, что все обнаруженные возможности активно используются против пользователей прямо сейчас. Речь идёт о наличии соответствующей технической инфраструктуры в коде приложения, которая, по его мнению, может быть задействована при необходимости.

Разработчики МАКС на момент публикации не комментировали выводы исследования.

RSS: Новости на портале Anti-Malware.ru