Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Вышел Efros DefOps 2.13 с MFA, защитой от DDoS и улучшенным NAC

Компания «Газинформсервис» выпустила релиз 2.13 модульной платформы Efros Defence Operations. Обновление затронуло сразу несколько ключевых модулей, добавив новые функции для усиления защиты корпоративных сетей и упрощения администрирования.

«Мы постоянно стремимся совершенствовать Efros DefOps, чтобы соответствовать самым актуальным вызовам в области кибербезопасности, — комментирует Мария Кудрявцева, менеджер продукта Efros DefOps. — Релиз 2.13 — это результат нашей непрерывной работы над улучшением пользовательского опыта и укреплением защитных механизмов, отражающий как последние тенденции рынка, так и запросы наших клиентов».

Основные изменения в версии 2.13:

  • NAC — появилась полноценная поддержка многофакторной аутентификации (MFA) через интеграцию с внешними системами по RADIUS, улучшена защита удалённого доступа за счёт работы с VPN С-Терра, а гостевой портал переведён на отдельный серверный интерфейс. Реализовано считывание сертификатов с USB-токенов JaCarta и улучшено управление активными сессиями.
  • Secure DNS (SDNS) — теперь модуль может выявлять и блокировать DDoS-атаки, включая DNS Amplification. Доступны режимы мониторинга и активной блокировки.
  • Firewall Assurance (FA) — улучшена совместимость с МЭ АПКШ «Континент 4», добавлена поддержка Check Point R80 Management Server и Check Point Domain. В отчётах по изменениям правил теперь отображаются тип, дата и автор правки. Все правила собраны в «Базу правил МЭ» с фильтром поиска.
  • Change Manager (CM) — реализована интеграция с Naumen Service Desk, позволяющая загружать, синхронизировать и выгружать заявки. Появились функции переназначения ответственных, а также загрузки данных из CSV-шаблонов.
  • VMware NSX-T и NSX-V — кроме управления конфигурациями теперь можно визуализировать гипервизоры ESXi на карте сети и моделировать трафик.
  • Integrity Check Compliance (ICC) — добавлен контроль целостности файлов внутри контейнеров средствами ОС с установкой утилит на хост.
  • Общесистемные улучшения — повышена отказоустойчивость и бесперебойная работа геораспределённого кластера.

Не так давно мы публиковали обзор версии EFROS DefOps под номером 2.6. Разобрали функциональные возможности модулей и архитектуру.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru