Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Google упростила удаление личных данных и интимных фото из поиска

В интернете всегда найдётся кто-то, кто хочет узнать о вас больше, чем следовало бы. К счастью, у Google есть инструменты, которые помогают убрать лишнее из поисковой выдачи. Компания обновила сервис Results About You, который ищет и помогает удалить из выдачи страницы с вашими персональными данными.

Теперь инструмент умеет находить не только адреса и телефоны, но и номера документов, включая паспорт, водительские права и даже номер социального страхования (для США).

Чтобы система знала, что искать, пользователю нужно заранее добавить часть этих данных в настройках. Для водительских прав требуется полный номер, а для паспорта или SSN — только последние четыре цифры. После этого Google будет периодически сканировать выдачу и присылать уведомления, если найдёт совпадения.

Важно понимать: контент не исчезает из Сети полностью, но перестаёт отображаться в поиске Google, что для большинства пользователей уже существенно снижает риски.

Обновление коснулось и инструмента для удаления интимных изображений, опубликованных без согласия человека. Речь идёт как о реальных фото, так и о дипфейках и других сгенерированных ИИ материалах.

Теперь пожаловаться на такие изображения стало проще: достаточно нажать на три точки рядом с картинкой в поиске, выбрать «Удалить результат» и указать, что это интимное изображение. Google уточнит, настоящее это фото или дипфейк, а затем запустит проверку.

Кроме того, теперь можно добавлять сразу несколько изображений в одну заявку, что особенно актуально в эпоху, когда генеративный ИИ позволяют создавать подобный контент буквально за минуты.

Google также добавила возможность мониторинга: если функция включена, система будет автоматически отслеживать появление новых подобных изображений и предупреждать пользователя.

Поиск по ID уже доступен в Results About You. Обновлённый инструмент для удаления интимного контента начнёт появляться в ближайшие дни и будет постепенно распространяться на разные страны.

RSS: Новости на портале Anti-Malware.ru