Исследователи спрятали зловреда в модели нейросети, и это сработало

Исследователи спрятали зловреда в модели нейросети, и это сработало

Исследователи спрятали зловреда в модели нейросети, и это сработало

В Университете Китайской академии наук убедились, что использование технологии нейронных сетей для доставки вредоносного кода способно надежно скрыть его от антивирусов. Исследование показало, что в модели можно безбоязненно подменить до половины искусственных нейронов — потеря производительности составит менее 7%, и защитные сканеры вряд ли заметят присутствие зловреда.

Для экспериментов была выбрана (PDF) сверточная нейросеть AlexNet — классическая модель, зачастую используемая для проверки эффективности алгоритмов машинного зрения. Вооружившись несколькими образцами реальных вредоносов, исследователи по-разному прятали их в скрытых слоях сети, фиксируя процент замен и точность предсказаний при прогоне контрольных изображений.

В итоге оказалось, что в 178М-байтовую модель AlexNet можно внедрить до 36,9МБ стороннего кода с потерей производительности менее 1%. Проверка результатов с помощью 58 антивирусов из коллекции VirusTotal не дала ни одного положительного срабатывания.

Для проведения атаки злоумышленнику, со слов исследователей, нужно вначале построить нейросеть и потренировать ее на заранее подготовленном наборе данных. Можно также приобрести уже обученный образец, внедрить вредоносный код и убедиться, что его присутствие не влечет неприемлемую потерю производительности. Подготовленная модель публикуется в общедоступном хранилище и начинает раздаваться, например, как апдейт в рамках атаки на цепочку поставок.

Предложенный подход предполагает дизассемблирование вредоносного кода перед встраиванием в искусственные нейроны. Обратную сборку выполняет программа-загрузчик, запущенная на целевом устройстве. Исполнение зловреда при этом можно предотвратить, если настройки атакуемой системы предусматривают верификацию загружаемого ИИ-контента. Выявить непрошеного гостя сможет также статический или динамический анализ кода.

«Обнаружить такого зловреда с помощью антивирусов в настоящее время затруднительно, — комментирует известный ИБ-специалист Лукаш Олейник (Lukasz Olejnik). — Но причина лишь в том, что никому в голову не приходит искать его в подобном месте».

Эксперты предупреждают, что рост популярности технологии нейросетей открывает новые возможности для злоупотреблений. Ее можно использовать, например, для взлома CAPTCHA, троллинга, шантажа и мошенничества, а также засева бэкдоров (PDF). Исследование возможных сценариев абьюза ИИ — залог успешной борьбы с этой ИБ-угрозой.

Новая вектор атаки заставляет ИИ не замечать опасные команды на сайтах

Специалисты LayerX описали новую атаку, которая бьёт по самому неприятному месту современных ИИ-ассистентов — разрыву между тем, что видит браузер, и тем, что анализирует модель. В результате пользователь может видеть на странице вполне конкретную вредоносную команду, а ИИ при проверке будет считать, что всё безопасно.

Схема построена на довольно изящном трюке с рендерингом шрифтов. Исследователи использовали кастомные шрифты, подмену символов и CSS, чтобы спрятать в HTML один текст, а пользователю в браузере показать совсем другой.

Для человека на странице отображается команда, которую предлагают выполнить, а вот ИИ-ассистент при анализе HTML видит только безобидное содержимое.

Именно в этом и заключается главная проблема. Ассистент смотрит на структуру страницы как на текст, а браузер превращает её в визуальную картинку. Если атакующий аккуратно разводит эти два слоя, получается ситуация, в которой пользователь и ИИ буквально смотрят на разные версии одной и той же страницы.

 

В качестве демонстрации LayerX собрала демонстрационный эксплойт на веб-странице, которая обещает некий бонус для игры BioShock, если выполнить показанную на экране команду. Пользователь, естественно, может спросить у ИИ-ассистента, безопасно ли это. И вот тут начинается самое неприятное: модель анализирует «чистую» HTML-версию, не замечает опасную команду и успокаивает пользователя.

 

То есть атака работает не за счёт взлома браузера или уязвимости в системе, а через старую добрую социальную инженерию, просто усиленную особенностями работы ИИ. Человеку показывают одно, а ассистенту — другое. И если пользователь привык доверять ответу модели, риск становится вполне реальным.

По данным LayerX, ещё в декабре 2025 года техника срабатывала против целого набора популярных ассистентов, включая ChatGPT, Claude, Copilot, Gemini, Leo, Grok, Perplexity и ряд других сервисов. При этом исследователи утверждают, что Microsoft была единственной компанией, которая приняла отчёт всерьёз и полностью закрыла проблему у себя. Остальные в основном сочли риск выходящим за рамки, потому что атака всё же требует социальной инженерии.

RSS: Новости на портале Anti-Malware.ru