Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Екатерина Быстрова 11 Августа 2025 - 08:58

...

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

Следующая главная новость »

Самые свежие новости ИТ и ИБ. Обзоры, аналитика, анонсы главных ивентов
Подписывайтесь на телеграм-канал!

Екатерина Быстрова 21 Июля 2026 - 14:27

macOS Трояны Программы-вымогатели Домашние пользователи

Вредонос ClickLock запирает macOS и не отпускает без пароля

Исследователи из Group-IB обнаружили новый стилер для macOS, который выбивает пароль из жертвы почти буквально. ClickLock Stealer блокирует нормальную работу компьютера, пока пользователь не введёт настоящие данные от учётной записи. С мая 2026 года от вредоноса пострадали не менее 100 человек в 33 странах.

Атака начинается с поддельной проверки Cloudflare. Пользователю предлагают вставить команду в Терминал, после чего скрипт показывает фальшивую проверку браузера с прогресс-баром.

Пока будущая жертва любуется анимацией, вредонос загружает четыре модуля со взломанных сайтов на WordPress. Затем появляется убедительное окно macOS с именем пользователя и просьбой ввести пароль. ClickLock проверяет его через локальную службу каталогов и отправляет операторам только рабочие данные.

Нажать «Отмена» и уйти не получится. Вредонос устанавливает два LaunchAgent-модуля, которые активируются при следующем входе. Один каждые 210 миллисекунд закрывает все видимые приложения, оставляя на экране лишь окно ввода пароля.

Второй таким же способом заставляет жертву подтвердить настоящий запрос Keychain, чтобы украсть ключ Chrome Safe Storage. Отдельный процесс на несколько часов глушит Центр уведомлений.

Добыча получается внушительной: данные восьми браузеров, расширений 31 криптокошелька и семи менеджеров паролей, восемь настольных кошельков, Keychain, история команд, FTP-учётки и адреса в шести блокчейнах. Украденное уходит через Telegram-ботов и взломанные домены. В системе остаётся замаскированный бэкдор GSocket.

Большинство модулей после работы удаляются и подделывают временные метки файлов. Кто стоит за кампанией, пока неизвестно. Связь с техникой ClickFix исследователи считают весьма вероятной, но сами фишинговые страницы не наблюдали.

Самые свежие новости ИТ и ИБ. Обзоры, аналитика, анонсы главных ивентов
Подписывайтесь на телеграм-канал!