Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

ФСТЭК обновила правила аттестации защищённых информационных систем

ФСТЭК России скорректировала порядок аттестации объектов информатизации, на которых обрабатывается информация ограниченного доступа, не содержащая государственную тайну. Изменения внесены в действующий приказ № 77 и затрагивают сразу несколько этапов проверки защищённости.

Регулятор объяснял необходимость обновления документа тем, что его нужно привести в соответствие с новыми требованиями к защите государственных информационных систем и других информационных систем госорганов, утверждёнными приказом ФСТЭК № 117 от 11 апреля 2025 года.

Кроме того, при подготовке изменений учитывался опыт применения действующего порядка аттестации, который действует с 2021 года.

В новой редакции приказа уточняются требования к проведению аттестационных испытаний — то есть проверок, которые подтверждают соответствие объекта установленным требованиям безопасности.

Изменения также коснулись периодического контроля уже аттестованных объектов. ФСТЭК конкретизировала, какие мероприятия должны проводиться для проверки уровня защищённости информации после получения аттестата.

Ещё одно нововведение касается оформления результатов проверок. Обновлены требования к содержанию отчётов и протоколов, составляемых по итогам контроля защищённости.

По сути, документ не меняет саму идеологию аттестации, но делает её более формализованной и приводит действующий порядок в соответствие с обновлённой нормативной базой.

Для организаций, которым необходимо проходить аттестацию информационных систем, это означает, что при подготовке к проверкам и последующему контролю придётся ориентироваться уже на новые требования ФСТЭК.

RSS: Новости на портале Anti-Malware.ru