Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Линус Торвальдс резко высказался против ИИ-слопа в ядре Linux

Пока мир захлёбывается от LLM-ботов и бесконечного ИИ-слопа, ядро Linux, похоже, остаётся последним бастионом здравого смысла. По крайней мере, если судить по свежей реакции Линуса Торвальдса на дискуссию вокруг использования ИИ в разработке ядра.

Создатель Linux довольно резко высказался по поводу идеи как-то отдельно регулировать или документировать вклад, сделанный с помощью LLM-помощников.

Поводом стало сообщение разработчика ядра Лоренцо Стоукса, связанного с Oracle, который усомнился в популярной формуле «LLM — это просто ещё один инструмент» и назвал такую позицию наивной.

Ответ Торвальдса был, мягко говоря, недипломатичным — в его стиле:

«Нет. Глупая тут как раз твоя позиция. Говорить об “ИИ-слопе” — это просто идиотизм. Люди, которые клепают плохие патчи с помощью ИИ, не будут добросовестно это документировать. Это настолько очевидно, что я вообще не понимаю, зачем это обсуждать».

Дальше — ещё жёстче. По мнению Торвальдса, документация ядра не должна превращаться в идеологическое поле боя между апологетами ИИ и сторонниками «конца света»:

«Я не хочу, чтобы документация по разработке ядра становилась заявлением об ИИ. У нас и так хватает людей по обе стороны — от “всё пропало” до “ИИ революционизирует разработку”».

Именно поэтому он настаивает на нейтральной формулировке «просто инструмент». Не потому, что он безоговорочно верит в LLM, а потому что документация — не место для деклараций.

При этом позиция Торвальдса остаётся, как ни странно, неоднозначной. Формально он не запрещает использование ИИ-помощников и, похоже, понимает, что запрет был бы бессмысленным. Если LLM-боты можно использовать тайком, их всё равно будут использовать. Просто не скажут об этом.

Контекст у спора вполне реальный. Команды разработчиков уже работают над чёткими рекомендациями по написанию патчей с помощью ИИ, а сами инструменты активно применяются на практике.

Сам Торвальдс раньше высказывался об ИИ куда мягче. В 2024 году он говорил, что 90% ИИ-маркетинга — это хайп, а позже неожиданно допустил вайб-кодинг, но с оговоркой: «если это не для чего-то важного». С этим, впрочем, далеко не все согласились — включая технических журналистов.

Кроме того, Линус в декабре неожиданно оправдал Windows BSOD.

RSS: Новости на портале Anti-Malware.ru