Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Мошенники угоняют аккаунты Telegram с помощью встроенных приложений

Специалисты «Лаборатории Касперского» выявили новую схему массового угона телеграм-аккаунтов. Авторы атак используют встроенные в мессенджер вредоносные приложения, собирающие коды аутентификации на вход с нового устройства.

Мошеннические сообщения-приманки, как правило, распространяются в многолюдных группах. Получателей извещают о переносе чата из-за потери доступа к админ-аккаунту.

Ложное уведомление содержит ссылку «Перейти в новосозданный чат». При ее активации открывается окно встроенной телеграм-проги с полем для ввода пятизначного кода.

Если пользователь выполнит это действие, в его аккаунт будет добавлено устройство злоумышленников, и они смогут продолжить провокационные рассылки — уже от имени жертвы.

Эксперты не преминули отметить, что обманом полученный доступ к учетной записи Telegram будет вначале ограниченным: мошенники сразу не смогут изучить всю переписку жертвы и заблокировать его устройства. Эти возможности появятся позже, как и блокировка законного владельца аккаунта.

Характерной особенностью данной схемы является иллюзия легитимности: фишинговые ресурсы не используются, мошенническая ссылка привязана к Telegram и ведет в приложение в этом мессенджере. Известие о пересоздании чата тоже вряд ли вызовет подозрения из-за участившихся взломов.

По данным Kaspersky, вредоносные приложения, нацеленные на сбор кодов верификации, объявились в Telegram в конце прошлой недели. Если жертва будет действовать быстро, она сможет вернуть контроль над учётной записью через настройки мессенджера (=> «Конфиденциальность» => «Активные сессии» => «Завершить все другие сеансы»).

«Аккаунты в популярных мессенджерах остаются лакомым куском для злоумышленников, — комментирует Сергей Голованов, главный эксперт ИБ-компании. — Мы напоминаем о необходимости быть крайне внимательными, не переходить по подозрительным ссылкам и ни при каких условиях нигде не вводить код аутентификации, полученный от Telegram, а также устанавливать на все используемые устройства надёжные защитные решения».

Отметим, похожую схему угона телеграм-аккаунтов, тоже с использованием легитимной функциональности мессенджера и социальной инженерии, недавно обнародовала CYFIRMA. Выявленный метод тоже не предполагает взлома, обхода шифрования либо эксплойта уязвимостей; умело спровоцированный юзер сам выдает разрешение на доступ к его учетной записи.

RSS: Новости на портале Anti-Malware.ru