Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Екатерина Быстрова 11 Августа 2025 - 08:58

...

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Следующая главная новость »

Подписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Екатерина Быстрова 25 Ноября 2025 - 20:00

Трояны Домашние пользователи Малый и средний бизнес

Через вредоносные Blender-файлы распространяют инфостилер StealC V2

Исследователи обнаружили новую кампанию «с российским следом», в рамках которой злоумышленники распространяют инфостилер StealC V2 через вредоносные файлы Blender, загруженные на крупные 3D-маркетплейсы вроде CGTrader. Blender позволяет выполнять Python-скрипты — они используются для автоматизации, кастомных панелей, ригов и аддонов.

Если у пользователя включена функция Auto Run, скрипты запускаются автоматически при открытии файла. Этим и пользуются атакующие: многие художники и моделлеры включают Auto Run ради удобства.

Специалисты Morphisec заметили, что вредоносные .blend-файлы содержат встроенный Python-код, который загружает лоадер с домена в Cloudflare Workers.

Далее загрузчик скачивает PowerShell-скрипт, который подтягивает два ZIP-архива — ZalypaGyliveraV1 и BLENDERX — с IP-адресов, контролируемых злоумышленниками.

Архивы распаковываются во временную папку, откуда создают LNK-файлы в автозагрузке для постоянства. Затем жертве подсовываются два компонента: основной инфостилер StealC и вспомогательный Python-стилер для подстраховки.

По данным Morphisec, атакующие используют последнюю версия второго поколения StealC — того самого, который ранее изучала Zscaler. Новый StealC заметно расширил функции:

крадёт данные из 23+ браузеров и поддерживает расшифровку паролей на стороне сервера, включая Chrome 132+;
поддерживает свыше 100 расширений криптокошельков и более 15 отдельных приложений;
ворует данные мессенджеров (Telegram, Discord, Tox, Pidgin), VPN-клиентов (ProtonVPN, OpenVPN) и почтовых программ, включая Thunderbird;
оснащён обновлённым механизмом обхода UAC.

При этом свежие версии StealC по-прежнему почти не детектируются антивирусами: Morphisec отмечает, что образец, который они изучали, не был распознан ни одним движком на VirusTotal.

Атака опасна тем, что 3D-маркетплейсы не могут проверять встроенный в файлы код. Художникам, аниматорам и моделлерам рекомендуется:

отключить автоматический запуск Python-скриптов: Blender → Edit → Preferences → снять галочку с Auto Run Python Scripts;
относиться к 3D-ассетам как к потенциально исполняемому коду;
скачивать файлы только у надёжных авторов или тестировать их в песочнице.

Злоумышленники явно ориентируются на профессиональное сообщество 3D-контента — и такая схема может оказаться особенно опасной для студий и фрилансеров, которые работают с большим количеством моделей из внешних источников.

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Читайте также