Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

Ущерб свыше 1 млрд руб.: детям обещают робуксы, а у родителей крадут деньги

Компания F6 предупредила о новом витке мошеннических схем, в которых злоумышленники выходят на родителей через детей. В качестве приманки используют старую и всё ещё рабочую наживку — обещание бесплатных робуксов для Roblox. Но теперь схема стала жёстче: кроме обмана, преступники начали активно запугивать детей фейковыми заявлениями в полицию.

По данным аналитиков F6, в 2025 году в России зафиксировали более 7000 таких инцидентов, а общий ущерб от подобных атак мог превысить 1 млрд рублей.

Сценарий обычно начинается в TikTok и Likee, где мошенники от имени популярных у детей блогеров публикуют ролики о якобы бесплатной раздаче игровой валюты. Дальше ребёнка уводят в личные сообщения или в мессенджер, где уже выдают «инструкцию» по получению несуществующего приза.

 

И вот здесь начинается главное. У ребёнка просят сфотографировать экран телефона мамы, папы, бабушки или дедушки, чтобы понять, какими банковскими приложениями пользуются взрослые. После этого могут попросить открыть СМС от банка и прислать фотографии сообщений с кодами, балансами и уведомлениями.

Чтобы ребёнок не успел задуматься, мошенники торопят его таймером на 5–7 минут и пишут в доверительном стиле вроде «зая» или «зайка». Всё сделано так, чтобы быстро расположить к себе и не дать времени посоветоваться со взрослыми.

Если нужные фото уже отправлены, начинается следующий этап — запугивание. По данным F6, злоумышленники рассылают детям фальшивые видеосообщения и «заявления в полицию». В одном из сценариев используется ролик с дипфейк-монтажом: в кадре на долю секунды появляется блогер, а затем её голосом ребёнку сообщают, что на него якобы уже подано заявление о мошенничестве.

 

Дальше ребёнку показывают поддельную страницу, оформленную под сайт МВД России. В тексте говорится, что блогер якобы перевёл деньги родителям ребёнка на покупку робуксов, а теперь требует возврата, иначе будет штраф — например, 100 тысяч рублей. Цель проста: испугать, подавить и заставить выполнять новые указания.

Параллельно специалисты фиксируют ещё одну связанную схему — уже с угоном аккаунтов Roblox и мессенджеров. В фейковых каналах тех же «блогеров» пользователям предлагают поучаствовать в розыгрыше робуксов, а затем через бота просят ввести номер телефона и код двухфакторной аутентификации. После этого аккаунт фактически уходит в руки злоумышленников.

 

По наблюдениям F6, с начала 2026 года активность таких атак растёт. Главная мишень — дети 8–14 лет, для которых Roblox по-прежнему остаётся одной из самых популярных игр.

RSS: Новости на портале Anti-Malware.ru