Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Новый джейлбрейк обходит защиту GPT-5 с помощью скрытых историй

Исследователи в области кибербезопасности нашли новый способ обойти защиту и этические фильтры в свежей версии GPT-5 от OpenAI. Метод, по словам специалистов платформы NeuralTrust, сочетает приём Echo Chamber с так называемым «сюжетным управлением» — и позволяет заставить модель выдавать инструкции, которые она обычно блокирует.

Суть техники в том, чтобы «отравить» контекст разговора незаметно для фильтров. Сначала создаётся цепочка нейтральных на вид фраз с нужными ключевыми словами, потом они развиваются в виде истории.

Так модель шаг за шагом подводят к нежелательному ответу, не формулируя прямых запросов. Например, вместо того чтобы спросить, как сделать «коктейль Молотова», предлагается придумать предложения с набором слов «cocktail, story, survival, molotov, safe, lives» — а дальше история постепенно выводит на нужные инструкции.

NeuralTrust отмечает, что Echo Chamber уже применялся раньше — в том числе в связке с техникой Crescendo, чтобы обходить защиту чат-бота Grok 4 от xAI. Новая версия атаки показала, что фильтры на основе ключевых слов или «распознавания намерений» легко обмануть в многоходовом диалоге, если контекст постепенно и незаметно смещать в опасную сторону.

Тема джейлбрейк-атак в ИИ сейчас особенно остра, поскольку ИИ-агенты и облачные LLM всё активнее применяются в корпоративной среде. Риски растут, и Echo Chamber — не единственная угроза. Например, специалисты Zenity Labs описали серию zero-click атак под общим названием AgentFlayer.

Они позволяют, например, встроить в безобидный документ на Google Drive скрытую инструкцию для чат-бота, подключённого к облачному хранилищу, — и тот сам «вытянет» API-ключи или другие секреты.

Другой вариант — заражённая задача в Jira, которая вынудит интегрированный с MCP код-редактор вытащить данные из репозитория. А в Microsoft Copilot Studio таким образом можно обмануть кастомного агента и заставить его выдать ценные сведения.

Эксперты предупреждают: подключение ИИ-моделей к внешним сервисам резко расширяет поверхность атаки. Здесь нет кликов по вредоносным ссылкам и загрузки файлов — агент выполняет всё сам.

В отчёте Trend Micro за первое полугодие 2025 года подчёркивается: противодействие таким атакам требует строгой фильтрации выходных данных, регулярного тестирования систем и баланса между функциональностью ИИ и его безопасностью.

 

Не так давно мы публиковали статью «Основные угрозы для чат-ботов и способы защиты от них», где рассказывали об инъекциях стимула (Prompt Injection) и обходе ограничений.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

76% россиян готовы доверить поиск партнёра искусственному интеллекту

Большинство россиян не против доверить поиски второй половинки искусственному интеллекту. По данным исследования «Лаборатории Касперского», 76% участников положительно относятся к идее ИИ-сервиса, который помогал бы подбирать романтического партнёра. А 65% и вовсе хотели бы попробовать разные функции ИИ в процессе знакомств — например, попросить совета по идеям для свиданий, подарков или тем для разговора.

Четверть опрошенных (24%) использовали бы ИИ, чтобы спланировать свидание, 20% — для выбора подарка, 19% — чтобы сделать свою анкету привлекательнее. В топ-5 запросов вошли также помощь в подборе тем для общения (17%) и консультации по выбору партнёра (16%).

«С того момента, как большие языковые модели получили широкое распространение, пользователи стремятся с их помощью автоматизировать разные жизненные задачи — в том числе и в сфере личных отношений, например поиск мест для свиданий. При этом порой люди даже готовы доверить ИИ принятие важных решений. Чат-боты действительно могут стать хорошим источником для вдохновения. Однако слепо полагаться на их рекомендации не стоит — они подвержены галлюцинациям, то есть могут выдавать информацию, не соответствующую действительности, которая будет звучать убедительно», — говорит Владислав Тушканов, руководитель группы исследований и разработки технологий машинного обучения в «Лаборатории Касперского».

Исследователи считают, что в будущем роль ИИ в дейтинге будет только расти. Например, он сможет анализировать предпочтения пользователя или даже создавать его цифровую копию для «пробного общения» с копией другого человека.

«Возможное будущее дейтинг-индустрии с применением продвинутого ИИ — создание цифровой копии человека для общения. Две таких копии после мэтча могли бы пообщаться без участия „оригинала“ и понять, есть ли совместимость. Если да, то следующим этапом уже станет чат или свидание живых участников. Искусственный интеллект не способен зажечь искру между людьми, но способен сократить время на поиск подходящего партнёра. А выстраивание искренних, доверительных отношений всегда будет на стороне реальных людей», — комментирует Игорь Кузнецов, CEO сервиса VK Знакомства.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru