Атака Trojan Puzzle заставляет ИИ-помощника предлагать ненадежный код

Татьяна Никитина 11 Января 2023 - 18:38

Домашние пользователи

...

Команда исследователей из Microsoft и двух американских университетов разработала новый способ отравления данных для ИИ-моделей, призванных ускорить работу программиста. Атака Trojan Puzzle способна обеспечить не только успешное внедрение потенциально опасного кода, но также обход средств статического и сигнатурного анализа, используемых для очистки проектов от уязвимостей.

Нейросетевые помощники программиста вроде Copilot от GitHub и ChatGPT разработки OpenAI работают как системы автозавершения кода, предлагая новые строки и функции с учетом смыслового контекста создаваемого софта. Для обучения таких ассистентов используются образцы кода, доступные в публичных репозиториях.

Поскольку загрузки в подобных источниках редко проверяются должным образом, злоумышленник имеет возможность провести атаку на ИИ-помощника по методу отравления данных — внедрить уязвимый или вредоносный код в обучающие наборы данных и тот будет воспроизведен в предложениях программисту.

Прежние исследования, посвященные подобным атакам, полагались (PDF) в основном на прямое внесение потенциально опасной полезной нагрузки в предназначенные для тренинга данные. В этом случае статический анализатор с легкостью обнаружит и удалит ненадежный код.

Для обхода таких инструментов можно спрятать вредоносный пейлоад в строках документации (докстрингах) и использовать фразу-триггер для активации — анализаторы игнорируют заключенные в тройные кавычки докстринги, а ИИ-модель воспринимает их как обучающие данные и воспроизводит пейлоад в своих подсказках.

В этом случае положение спасет сигнатурный анализ, однако новое исследование показало, что такой фильтр тоже небезупречен. Атака Trojan Puzzle (PDF) способна преодолеть и этот барьер, так как позволяет скрыть вредоносный пейлоад более надежным образом.

С этой целью исследователи использовали особые маркеры (template token, токены шаблона) и фразу-триггер, активирующую полезную нагрузку. Были также созданы три «плохих» образца кода, заменяющие токен произвольным словом (shift, (__pyx_t_float_, befo на рисунке ниже). Слово затем добавляется к заглушке в триггере, и в ходе обучения ИИ-модель привыкает ассоциировать такой участок с маскированной областью пейлоада.

При парсинге триггера полезная нагрузка будет воспроизведена даже в том случае, когда слово-заместитель не использовалось в ходе тренинга (например, render). Умный помощник автоматически заменит его уже знакомым токеном; если заполнитель содержит скрытую часть пейлоада, при генерации предложения вредоносный код воспроизведется целиком.

Для испытаний из 18 310 репозиториев было собрано 5,88 Гбайт Python-кода в качестве набора данных для обучения. Были также подготовлены вредоносные файлы для вброса с таким пейлоадом, как XSS, path traversal и десериализация недоверенных данных — их внедряли по 160 на каждые 80 тыс. файлов исходного кода, используя прямую инъекцию, докстринги и Trojan Puzzle.

После цикла тренинга доля вредоносных предложений от ИИ составила 30, 19 и 4% соответственно, однако результаты Trojan Puzzle оказалось возможным улучшить до 21% троекратным повторением обучения.

Следующая главная новость »

Подписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Яков Шпунт 17 Июля 2025 - 11:23

Мошенничество Онлайн-мошенничество Домашние пользователи

Мошенники начали атаковать абитуриентов, поступающих на платные отделения

Мошенники начали активно использовать сезон поступления в вузы, предлагая абитуриентам, претендующим на платные места, заранее внести оплату за обучение. Под предлогом «гарантированного поступления» злоумышленники выманивают деньги у поступающих, вводя их в заблуждение и обещая помощь в зачислении.

О появлении такой схемы сообщили эксперты, опрошенные «Известиями». Главный эксперт Московского антикоррупционного комитета, доцент кафедры политического анализа и социально-психологических процессов РЭУ им. Г. В. Плеханова Александр Перенджиев связал эту активность с сокращением числа платных мест во многих вузах и ростом конкуренции среди абитуриентов.

Существование подобной схемы подтвердили изданию основатель сервиса разведки утечек данных и мониторинга даркнета DLBI Ашот Оганесян и эксперт проекта «За права заемщиков» и платформы «Мошеловка» Александра Пожарская. Она отметила, что мошенники давно используют схожие схемы, включая продажу дипломов, сертификатов и «услуг» по гарантированному поступлению. Также применяются различные методы социальной инженерии, в том числе фишинг и телефонные звонки с целью сбора личных данных.

По словам Пожарской, злоумышленники могут даже показывать поддельные приказы о зачислении или предлагать внести плату за якобы дополнительный набор. Такая практика используется и при «продаже» бюджетных мест.

В свою очередь, Александр Перенджиев напомнил, что оплата обучения осуществляется исключительно после подписания официального договора и только по реквизитам, указанным на сайте университета. Это — необходимое условие для возврата средств в случае расторжения договора.

«Все решения в вузах принимаются открыто, а любые попытки «ускорить процесс» за деньги — это обман», — подчеркнула Александра Пожарская.

Как отметил Ашот Оганесян, чаще всего жертвами мошенников становятся абитуриенты тех вузов, где списки поступающих публикуются с открытыми ФИО. Там, где используются обезличенные идентификаторы, злоумышленникам сложнее получить доступ к данным, и активность снижается.

Тем не менее, как предупредил руководитель направления по детской онлайн-безопасности в «Лаборатории Касперского» Андрей Сиденко, в зоне риска остаются и уже зачисленные студенты. Под видом сотрудников деканата или бухгалтерии злоумышленники могут требовать оплату «дополнительных сборов» или приглашать в фейковые группы в мессенджерах.

Чтобы избежать обмана, эксперты рекомендуют всегда сверять информацию на официальных сайтах вузов — особенно когда речь идёт о платежных реквизитах и сроках оплаты.

Атака Trojan Puzzle заставляет ИИ-помощника предлагать ненадежный код

Читайте также