Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Microsoft наконец разрешила админам удалять Copilot из Windows 11

Microsoft продолжает аккуратно, но настойчиво встраивать Copilot в Windows 11, однако, как показала практика, далеко не все этому рады. Особенно в корпоративной среде, где лишние приложения в системе чаще воспринимают как проблему, а не как благо. Похоже, этот сигнал в Редмонде всё-таки услышали.

В свежей Beta/Dev-сборке Windows 11 (26200.7535) Microsoft добавила новую групповую политику, которая наконец-то позволяет полностью удалить приложение Microsoft Copilot. Правда, с довольно строгими оговорками.

Новая политика рассчитана исключительно на корпоративные сценарии и работает только при выполнении всех условий сразу:

  • в системе одновременно установлены Microsoft Copilot и Microsoft 365 Copilot;
  • пользователь не устанавливал Microsoft Copilot вручную (приложение должно быть предустановленным или развёрнутым через корпоративную лицензию);
  • Copilot не запускался ни разу в течение как минимум 28 дней.

 

Если все пункты соблюдены, ИТ-администратор может применить политику и полностью удалить Copilot из системы.

Даже после удаления пользователи по-прежнему смогут установить Copilot вручную. То есть речи о жёстком запрете или блокировке на уровне системы пока не идёт — Microsoft лишь даёт возможность «прибраться».

Кроме того, функция предназначена только для организаций. Обычные пользователи Windows 11 воспользоваться этим механизмом не смогут — Microsoft 365 Copilot ориентирован исключительно на корпоративный сегмент.

Новая политика находится по пути:

Настройка пользователя Шаблоны администратора Компоненты Windows Windows AI Удалить приложение Microsoft Copilot

К слову, одновременно с этим шагом Microsoft решила открыть «Экранный диктор» (Narrator) с Copilot для всех пользователей Windows 11.

RSS: Новости на портале Anti-Malware.ru