Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Через вредоносные Blender-файлы распространяют инфостилер StealC V2

Исследователи обнаружили новую кампанию «с российским следом», в рамках которой злоумышленники распространяют инфостилер StealC V2 через вредоносные файлы Blender, загруженные на крупные 3D-маркетплейсы вроде CGTrader. Blender позволяет выполнять Python-скрипты — они используются для автоматизации, кастомных панелей, ригов и аддонов.

Если у пользователя включена функция Auto Run, скрипты запускаются автоматически при открытии файла. Этим и пользуются атакующие: многие художники и моделлеры включают Auto Run ради удобства.

Специалисты Morphisec заметили, что вредоносные .blend-файлы содержат встроенный Python-код, который загружает лоадер с домена в Cloudflare Workers.

 

Далее загрузчик скачивает PowerShell-скрипт, который подтягивает два ZIP-архива — ZalypaGyliveraV1 и BLENDERX — с IP-адресов, контролируемых злоумышленниками.

Архивы распаковываются во временную папку, откуда создают LNK-файлы в автозагрузке для постоянства. Затем жертве подсовываются два компонента: основной инфостилер StealC и вспомогательный Python-стилер для подстраховки.

 

По данным Morphisec, атакующие используют последнюю версия второго поколения StealC — того самого, который ранее изучала Zscaler. Новый StealC заметно расширил функции:

  • крадёт данные из 23+ браузеров и поддерживает расшифровку паролей на стороне сервера, включая Chrome 132+;
  • поддерживает свыше 100 расширений криптокошельков и более 15 отдельных приложений;
  • ворует данные мессенджеров (Telegram, Discord, Tox, Pidgin), VPN-клиентов (ProtonVPN, OpenVPN) и почтовых программ, включая Thunderbird;
  • оснащён обновлённым механизмом обхода UAC.

При этом свежие версии StealC по-прежнему почти не детектируются антивирусами: Morphisec отмечает, что образец, который они изучали, не был распознан ни одним движком на VirusTotal.

Атака опасна тем, что 3D-маркетплейсы не могут проверять встроенный в файлы код. Художникам, аниматорам и моделлерам рекомендуется:

  • отключить автоматический запуск Python-скриптов: Blender → Edit → Preferences → снять галочку с Auto Run Python Scripts;
  • относиться к 3D-ассетам как к потенциально исполняемому коду;
  • скачивать файлы только у надёжных авторов или тестировать их в песочнице.

Злоумышленники явно ориентируются на профессиональное сообщество 3D-контента — и такая схема может оказаться особенно опасной для студий и фрилансеров, которые работают с большим количеством моделей из внешних источников.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru