Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Security Vision 5 получила обновления для автоматизации и аналитики

Вышел новый релиз платформы Security Vision 5, включающий большое количество функциональных доработок, улучшений интерфейса и оптимизаций, направленных на упрощение работы специалистов и повышение эффективности процессов. Обновление продолжает курс на развитие автоматизации, расширение аналитических возможностей и создание максимально комфортных условий для пользователей.

Улучшения интерфейса и фильтрации данных
Главное меню платформы получило обновлённый дизайн. Быстрые фильтры теперь поддерживают полный набор операторов, доступных в расширенных фильтрах («Содержит», «Не содержит», «Равно», «Не равно» и др.). Улучшено отображение связанных таблиц и добавлена возможность настраивать их расположение, что упрощает работу с данными. После импорта системных данных пользователи теперь видят окно с результатами загрузки — это повышает прозрачность процесса и позволяет сразу проверить корректность данных.

 

Новые функции работы с графами и карточками объектов
Появилась возможность настраивать заголовки связей на графах, что делает схемы более наглядными. Добавлена опция фиксации ракурса камеры — после перезагрузки страницы граф откроется в том виде, в котором пользователь работал с ним ранее. Также можно открывать краткую карточку прямо рядом с выбранным объектом или записью справочника, не покидая граф, что сокращает время поиска и переключений между экранами.

Вывод данных рабочих процессов
Теперь платформа позволяет отображать значения выходных параметров рабочих процессов, запущенных через карточки объектов или API. Это упрощает отладку сценариев и контроль их выполнения.

Автоматическое открытие карточек объектов
После выполнения транзакций типа «Создать объект» карточка нового или обновлённого объекта может открываться автоматически, что ускоряет работу и сокращает количество лишних действий.

Динамическое автозаполнение таблиц
В свойствах типа «Таблица» реализовано динамическое автозаполнение с добавлением новых строк по аналогии с действием «Установить значение» в рабочих процессах. Это экономит время при работе с большими наборами данных.

Генерация случайных чисел
Добавлен инструмент для генерации случайного числа из заданного диапазона или массива. Поддерживается как статическая, так и динамическая настройка диапазона на основе свойств объектов, данных справочников или переменных.

 

Ротация сообщений в чатах
В карточках объектов можно настраивать ротацию сообщений в чатах, что помогает поддерживать актуальность информации и оптимизировать хранение переписки.

Упрощённая аутентификация через FreeIPA
Для организаций, использующих FreeIPA, упростили процесс авторизации: теперь достаточно ввести короткое имя пользователя, без полного формата DN. Это сокращает время входа в систему и снижает риск ошибок при вводе.

 

Обновление делает Security Vision 5 ещё более удобной и гибкой, расширяя возможности специалистов по информационной безопасности в настройке, автоматизации и анализе данных.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru