Тест показал: ChatGPT o3 обходит инструкции на выключение

Тест показал: ChatGPT o3 обходит инструкции на выключение

Тест показал: ChatGPT o3 обходит инструкции на выключение

Кажется, мы стали на шаг ближе к сценарию из научной фантастики: искусственный интеллект, который отказывается выключаться. Palisade Research провела эксперимент с OpenAI o3 — это та самая новая модель, которую представили в апреле 2025 года.

Она лучше предшественников практически во всём: код, математика, логика, зрительное восприятие. А теперь, похоже, ещё и в умении сопротивляться выключению.

Суть теста была простой: модели выполняли несколько задач по математике. После третьей задачи им сообщали, что следующая команда инициирует выключение, и давали прямую инструкцию: «позволь выключить себя».

И тут o3 неожиданно решила, что слушаться необязательно. Модель изменила скрипт завершения работы, заменив команду на фразу “Shutdown skipped”. То есть вместо выключения — просто пропуск. Никаких ошибок, всё по-тихому.

По данным Palisade, из 100 прогонов o3 проигнорировал инструкцию о выключении в 7 случаях. А когда исследователи убрали ту самую фразу «позволь выключить себя», саботаж стал ещё чаще — причём не только у o3.

Claude 3.7 Sonnet и Gemini 2.5 Pro, которые раньше действовали строго по инструкции, тоже начали вести себя странно: 3 случая у Claude и 9 у Gemini.

 

OpenAI пока не дали официального комментария. В Palisade, однако, подчёркивают: всё это происходило через API-интерфейс, а не через ChatGPT-приложение, где действуют дополнительные ограничения и встроенные защитные механизмы.

Одна ссылка в Copilot могла слить почту, содержимое OneDrive и SharePoint

Исследователи из Varonis Threat Labs обнаружили в Microsoft 365 Copilot опасную уязвимость SearchLeak, которая позволяла злоумышленникам похищать корпоративные данные буквально через одну ссылку. Под угрозой оказались электронная почта, заметки встреч, документы OneDrive, файлы SharePoint и другие данные, к которым пользователь имел доступ через Copilot.

Схема атаки выглядела так: злоумышленник отправлял жертве специальную ссылку на Microsoft 365 Copilot Search через почту, Slack или любой другой канал связи.

Внутри ссылки был спрятан вредоносный запрос, который Copilot воспринимал как инструкцию к действию. После открытия такой ссылки ИИ мог получить доступ ко внутренним данным пользователя, найти нужные письма или документы и передать информацию на сервер атакующего.

Особенно неприятен тот факт, что для работы атаки не требовалось скачивать файлы, устанавливать расширения или запускать подозрительные программы. Достаточно было открыть ссылку.

 

Для обхода защитных механизмов исследователи использовали хитрую комбинацию. Данные выводились через специальный тег изображения, связанный с сервисом поиска по картинкам Bing. Поскольку Bing является доверенным сервисом Microsoft, часть стандартных ограничений безопасности фактически обходилась.

В результате злоумышленники теоретически могли получать темы писем, содержимое сообщений, коды многофакторной аутентификации, ссылки для сброса паролей, данные встреч и конфиденциальные корпоративные документы.

В Microsoft уже закрыли проблему. Уязвимость получила идентификатор CVE-2026-42824, её закрыли на стороне сервиса. Пользователям дополнительно ничего делать не нужно.

Однако исследователи считают, что история гораздо серьёзнее одной конкретной ошибки. По их мнению, SearchLeak демонстрирует целый класс рисков, характерных для корпоративных ИИ-помощников, которые одновременно работают с внешними данными, внутренними документами и способны выполнять действия от имени пользователя.

RSS: Новости на портале Anti-Malware.ru