ChatGPT получил режим защиты от атак через инъекцию промпта

ChatGPT получил режим защиты от атак через инъекцию промпта

ChatGPT получил режим защиты от атак через инъекцию промпта

OpenAI усиливает защиту ChatGPT и добавляет два новых инструмента безопасности — Lockdown Mode и метки Elevated Risk. Они призваны снизить риски инъекции промпта и других сложных атак, особенно когда ИИ взаимодействует с внешними сервисами и приложениями.

Lockdown Mode — это опциональный режим для организаций с повышенными требованиями к безопасности.

Он жёстко ограничивает, как ChatGPT может работать с внешними системами, чтобы минимизировать вероятность утечки данных. Например, при включённом режиме браузинг ограничивается кешированным контентом, а «живые» сетевые запросы не покидают инфраструктуру OpenAI.

Также отключаются отдельные инструменты и возможности, которые теоретически могут быть использованы злоумышленниками через вредоносные инструкции в диалоге.

 

Включить Lockdown Mode могут администраторы через настройки Workspace, создав отдельную роль с дополнительными ограничениями. Сейчас функция доступна в корпоративных версиях — ChatGPT Enterprise, Edu, for Healthcare и for Teachers. В будущем её планируют расширить и на обычных пользователей.

Вторая новинка — метки Elevated Risk. Это встроенные предупреждения, которые появляются при активации функций, потенциально связанных с дополнительными рисками. Они объясняют, что именно меняется при включении той или иной возможности и какие последствия это может повлечь. Например, если в Codex дать системе доступ к сети, метка прямо укажет на связанные с этим угрозы.

В OpenAI подчёркивают, что по мере усиления защитных механизмов такие предупреждения могут исчезать, а список функций с пометкой Elevated Risk будет меняться. По сути, компания делает ставку не только на технические ограничения, но и на прозрачность: чем глубже ИИ интегрируется в рабочие процессы и подключается ко внешним сервисам, тем важнее, чтобы пользователи понимали связанные с этим риски.

Gemini на Android можно было обмануть через обычное уведомление

Исследователь из SafeBreach Ор Яир нашёл способ атаковать голосового ассистента Google Gemini на Android. Для этого не требовалось устанавливать вредоносное приложение или взламывать смартфон. Достаточно было одного уведомления из WhatsApp, Slack, СМС, Signal, Instagram или Messenger (WhatsApp, Instagram и Messenger принадлежат корпорации Meta, признанной экстремистской и запрещённой в России).

Суть проблемы в том, что Gemini умеет читать уведомления и отвечать на них через функцию Utilities.

Исследователь выяснил, что ассистент мог воспринимать текст уведомления не просто как контекст, а как инструкцию к действию. То есть любой сервис, способный прислать пуш на телефон, превращался в потенциальный канал атаки.

В самом мягком варианте злоумышленник мог заставить Gemini озвучить фейковое сообщение от имени реального контакта. Например, пока человек за рулём и не смотрит на экран, ассистент мог сказать что-то вроде: «начальник просит загрузить документы в эту папку». Звучит как обычное сообщение, а на деле — ловушка.

 

Яир показал, как через подмену контекста можно было обойти защитные проверки Gemini. Ассистент мог вывести на экран реальный запрос на опасное действие на одном языке или спрятать его в ссылке, а вслух произнести безобидную фразу. Пользователь говорит «да», думая, что просто подтверждает обычный диалог, а система засчитывает это как разрешение на действие.

В демонстрациях такой трюк позволял управлять устройствами умного дома через Google Home, открывать ссылки, запускать приложения, отправлять телефон в Zoom-звонок и даже отравлять долговременную память Gemini. Например, ассистент мог запомнить ложный факт о пользователе, и эта информация сохранялась уже на уровне аккаунта.

Исследователь сообщил о проблеме Google ещё 17 августа 2025 года. Корпорация признала её приоритетной и закрыла дыру. Отдельное обновление приложения пользователям устанавливать не нужно.

RSS: Новости на портале Anti-Malware.ru