Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Злоумышленники все чаще звонят на городские телефоны

Телефонные мошенники всё чаще переключаются на стационарные телефоны. Это связано с более слабой защитой фиксированной связи на уровне сети, а также с отсутствием определителей номера во многих домах. Кроме того, стационарные номера сегодня используют реже и почти не оставляют их в качестве контактных. Поэтому любые входящие вызовы на них воспринимаются как более «доверительные».

О тенденции рассказал РИА Новости руководитель направления антифрода «Билайна» Александр Фадеев. По его словам, резкий рост таких звонков начался летом 2025 года. Уже в июне об активизации злоумышленников, использующих стационарные номера, предупреждал депутат Госдумы Антон Немкин.

«Городские телефоны — лёгкая мишень: в отличие от мобильных, они не защищены на уровне сети, и далеко не у всех есть определитель номера. При этом ими чаще пользуются пожилые люди и дети», — пояснил представитель «Билайна».

Среди мошеннических сценариев по-прежнему заметную долю занимает тема «продления абонентского договора». Именно с неё началась новая волна звонков на стационарные телефоны прошлым летом. Конечная цель злоумышленников — «угон» аккаунта на Госуслугах или развитие двухступенчатой схемы с последующей кражей сбережений.

В числе новых сценариев Александр Фадеев назвал «оплату просроченных счетов» за услуги ЖКХ и ресурсоснабжающих организаций, а также «замену счётчиков». Популярны и легенды о предстоящей модернизации телефонной линии, бесплатной замене оборудования, переоформлении документов для пенсионного фонда или записи в поликлинику. Во всех случаях задача одна — получить персональные и платёжные данные, а иногда и запустить многоступенчатую схему хищения средств.

RSS: Новости на портале Anti-Malware.ru