Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

В России бот-трафик вырос в 1,9 раза, число устройств в ботнетах — в 5 раз

В первом полугодии 2025 года объём вредоносного бот-трафика в мире вырос в 1,8 раза по сравнению с тем же периодом 2024 года. Аналитики связывают этот рост с обострением геополитической ситуации и активностью политически мотивированных хактивистов.

Больше всего бот-трафика, по статистике StormWall, зафиксировано в США (32%), Турции (31%) и России (30,5%). Далее идут Китай (2,5%), Индия (1%), Таиланд (0,8%), Казахстан (0,6%), Бразилия (0,5%), Франция (0,4%) и Германия (0,3%).

Остальные страны суммарно генерируют 1,6% такого трафика.

Сильнее всего от бот-активности в мире пострадали телеком (25%), финансовая сфера (20%), ретейл (17%), развлечения (13%) и логистика (12%). На сферу образования, медицину и производство пришлось ещё 13%. В телеком-отрасли боты использовались для дестабилизации инфраструктуры провайдеров и их клиентов, в финансовом секторе — для атак на банки и платёжные API, а в ретейле — для скрейпинга цен, подмены стоимости и бот-фрода. Развлекательная сфера столкнулась с DDoS-атаками на стриминги и игровые турниры, а логистика — с атаками на инфраструктуру компаний.

Для бизнеса это обернулось потерями доходов из-за недоступности сервисов, нарушениями SLA, утечками данных при переборе и сканировании, а также ростом расходов на инфраструктуру и защиту.

В России рост оказался ещё выше — в 1,9 раза. Основные причины: увеличение числа уязвимых корпоративных устройств, их вовлечение в ботнеты через фишинг и заражённые прошивки, а также рост заказных DDoS-атак на бизнес и госуслуги.

Чаще всего боты атаковали телеком (28%), финансовую сферу (24%), ретейл (18%), развлечения (13%) и образование (9%). Медицина, производство и логистика суммарно получили 8% атак. В телеком-отрасли массовые DDoS-атаки выводили из строя инфраструктуру провайдеров и клиентов, а иногда использовались для вымогательства. В финансовой сфере и e-commerce боты мешали работе банков, финтех-компаний и онлайн-касс.

Для российских компаний это обернулось сбоями в работе сервисов, финансовыми потерями, штрафами за нарушение SLA, ростом расходов на кибербезопасность и потерей клиентов.

Отдельно отмечается резкий рост числа устройств в ботнетах — в 5 раз за год. Если в первой половине 2024 года их было около 200 тысяч, то в первой половине 2025-го — уже 1 миллион. Количество DDoS-атак с использованием ботнетов выросло в 1,6 раза: с 1,4 млн до 2,24 млн.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru