Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

ФАС дала передышку рекламе в Telegram, но у рынка остались вопросы

Участники рекламного рынка считают, что ряд формулировок в опубликованном накануне разъяснении Федеральной антимонопольной службы о размещении рекламы в Telegram и YouTube остаётся неоднозначным. Тем не менее, по их оценке, на практике никаких санкций в ближайшее время действительно не последует.

Накануне ФАС выпустила разъяснение, в котором сообщила, что не будет применять меры ответственности за размещение рекламы на этих площадках. Как заявило ведомство, переходный период продлится до конца 2026 года.

Представители рекламного рынка, опрошенные «Российской газетой», восприняли это разъяснение с воодушевлением. В начале марта действия ФАС в отношении двух блогеров серьёзно встревожили рынок и привели к резкому сокращению рекламных размещений, в том числе уже оплаченных публикаций.

«Разъяснение ФАС означает, что регулятор слышит рекламную отрасль, понимает проблемы, которые в одночасье могли возникнуть у сотен тысяч российских рекламодателей, и оперативно гасит тревожность, позволяя в спокойном режиме российской экономике продолжать работу с рекламными инструментами. Переходный период до конца 2026 года — это позитивный сигнал, который был нужен бизнесу», — отметил генеральный директор SALO, сопредседатель комитета по инфлюенс-маркетингу АРИР Александр Кукса.

При этом участники рынка обращают внимание, что прямого разрешения на размещение рекламы в Telegram и YouTube всё равно не появилось. Не до конца ясно и то, с какого именно момента следует отсчитывать запрет, поскольку решение суда, ставшее основанием для ограничений в отношении Telegram в России, было вынесено ещё в 2018 году и формально не отменено. Остаётся открытым и вопрос, будут ли штрафовать за рекламные размещения прошлых периодов, если они останутся опубликованными после 31 декабря 2026 года.

Генеральный директор Юридического центра для блогеров и агентств, юрист СРО АБА Анастасия Красникова советует ориентироваться на прежнюю практику ФАС. В качестве примера она приводит ситуацию с запретом рекламы в Instagram (принадлежит Meta, признанной в России экстремистской и запрещённой), когда также действовал переходный период без назначения штрафов.

«Отсутствие штрафа сейчас не равно легальности, так как риски по „хвосту“ полностью не сняты, поэтому полагаться полностью на так называемую амнистию в этом вопросе я бы не стала», — заявила директор АНО «Академия современной юриспруденции», доцент, заместитель заведующего кафедрой интеллектуальных прав МГЮА Елена Гринь. По её мнению, вопрос с рекламой в ранее опубликованных постах также остаётся нерешённым.

Елена Гринь также рекомендует уже сейчас маркировать рекламу и оформлять её через организационно-распорядительную документацию. Для этого, по её словам, необходимо фиксировать договоры, акты и переписку, корректно отделять редакционный контент от рекламных интеграций и наводить порядок в процессах, чтобы в случае ужесточения контроля не пришлось срочно всё перестраивать. При этом она советует не планировать новые интеграции после 1 января 2027 года.

В то же время, как спрогнозировали в Ассоциации блогеров и агентств в комментарии для ТАСС, даже в случае полной блокировки объём рекламы в Telegram может сократиться примерно вдвое, но не исчезнет полностью. Сейчас этот рынок оценивается примерно в 60 млрд рублей.

RSS: Новости на портале Anti-Malware.ru