Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Фишинг все чаще скрывают за обещанием защищенного мессенджера

Злоумышленники всё чаще маскируют вредоносные приложения не под поддельные мессенджеры, а под «безопасные ресурсы нового поколения», якобы обеспечивающие доступ к популярным сервисам без ограничений. На деле за такими решениями скрываются всё те же зловреды, а также инструменты удалённого управления устройствами и кражи данных.

О смене тактики злоумышленников, пытающихся использовать проблемы с работой популярных мессенджеров, пишут «Известия» со ссылкой на данные компании «Интернет-розыск».

По оценкам компании, количество инцидентов с поддельными мессенджерами, представляющими собой вредоносные приложения, за первые четыре месяца 2026 года выросло на 20% по сравнению с концом 2025 года. Основная задача таких зловредов — кража личных и платёжных данных.

Как отметил руководитель Smart Business Alert (SBA) компании ЕСА ПРО (входит в ГК «Кросс технолоджис») Сергей Трухачев, на фоне ограничений в России растёт интерес к децентрализованным средствам связи, работающим без центрального сервера. Такие решения привлекают пользователей обещаниями анонимности и устойчивости к блокировкам. Этим активно пользуются мошенники, выстраивая схемы вокруг реально существующих сервисов, что повышает доверие к фишинговым ресурсам.

По словам эксперта, вместе с установкой мессенджеров пользователи нередко загружают и зловреды, ориентированные в основном на сбор данных. В некоторых случаях злоумышленники также распространяют программы-вымогатели.

Только за апрель, по оценкам SBA, злоумышленники зарегистрировали более 4,7 тыс. доменов, связанных с якобы защищёнными и децентрализованными мессенджерами. За последние три месяца число таких ресурсов достигло примерно 13,6 тыс. В среднем мошенники создают более 150 подобных сайтов ежедневно.

Председатель координационного совета негосударственной сферы безопасности РФ, основатель и владелец компании «Интернет-Розыск» Игорь Бедеров также подтвердил эту тенденцию. По его словам, она развивается с середины 2025 года. Если раньше злоумышленники распространяли зловреды под видом «чистого Telegram без цензуры», то теперь делают ставку на приманки в виде «анонимных мессенджеров». Под видом таких продуктов распространяются майнеры, троянцы, клиенты ботнетов для DDoS-атак и рассылки спама, а также различные эксплойты.

«Мошенники активно используют тему «безопасной связи» как приманку для пользователей. Сейчас акцент сместился на якобы новые защищённые мессенджеры, которые обещают анонимность, устойчивость к блокировкам и конфиденциальность переписки», — отметил директор центра противодействия мошенничеству компании «Информзащита» Павел Коваленко.

По данным компании, в 62% случаев вредоносное ПО распространяется через APK-файлы для Android под видом патчей или программ-оптимизаторов. Ещё 46% атак осуществляется через мессенджеры в обход официальных каналов распространения приложений. Кроме того, в 2026 году доля инцидентов, связанных с модификацией или клонированием мобильных приложений, достигла 63%.

Руководитель разработки PT MAZE (Positive Technologies) Николай Анисеня отметил, что порог входа для разработчиков мобильных зловредов значительно снизился благодаря генеративному искусственному интеллекту. Если раньше для этого требовались серьёзные знания и навыки, то теперь многие процессы заметно упростились.

Эксперт по кибербезопасности «Лаборатории Касперского» Дмитрий Калинин назвал мессенджеры одним из ключевых векторов атак на мобильные устройства. По его словам, помимо полностью поддельных приложений встречаются и такие, которые выполняют легитимные функции, но при этом содержат встроенные вредоносные компоненты. Среди них он упомянул троянец Mamont, кампанию по распространению которого через «ускоритель Telegram» компания выявила в феврале 2026 года, а также криптостилер SparkCat.

Генеральный директор компаний 3side и 4sec Антон Бочкарев подчеркнул, что жертвами подобных атак могут стать не только обычные пользователи, но и компании. В результате возможны утечки корпоративных данных.

RSS: Новости на портале Anti-Malware.ru