Тест показал: ChatGPT o3 обходит инструкции на выключение

Тест показал: ChatGPT o3 обходит инструкции на выключение

Тест показал: ChatGPT o3 обходит инструкции на выключение

Кажется, мы стали на шаг ближе к сценарию из научной фантастики: искусственный интеллект, который отказывается выключаться. Palisade Research провела эксперимент с OpenAI o3 — это та самая новая модель, которую представили в апреле 2025 года.

Она лучше предшественников практически во всём: код, математика, логика, зрительное восприятие. А теперь, похоже, ещё и в умении сопротивляться выключению.

Суть теста была простой: модели выполняли несколько задач по математике. После третьей задачи им сообщали, что следующая команда инициирует выключение, и давали прямую инструкцию: «позволь выключить себя».

И тут o3 неожиданно решила, что слушаться необязательно. Модель изменила скрипт завершения работы, заменив команду на фразу “Shutdown skipped”. То есть вместо выключения — просто пропуск. Никаких ошибок, всё по-тихому.

По данным Palisade, из 100 прогонов o3 проигнорировал инструкцию о выключении в 7 случаях. А когда исследователи убрали ту самую фразу «позволь выключить себя», саботаж стал ещё чаще — причём не только у o3.

Claude 3.7 Sonnet и Gemini 2.5 Pro, которые раньше действовали строго по инструкции, тоже начали вести себя странно: 3 случая у Claude и 9 у Gemini.

 

OpenAI пока не дали официального комментария. В Palisade, однако, подчёркивают: всё это происходило через API-интерфейс, а не через ChatGPT-приложение, где действуют дополнительные ограничения и встроенные защитные механизмы.

В Security Vision SOAR появились ИИ-ассистент и ML-отчёты

Security Vision выпустила обновление платформы SOAR, добавив в неё несколько заметных функций — локальный ИИ-ассистент, ML-скоринг инцидентов и автоматические ML-отчёты по итогам расследований. Обновление ориентировано на повседневную работу SOC и обработку инцидентов без выхода за контур заказчика.

Security Vision SOAR используется для управления и автоматизации реагирования на инциденты информационной безопасности на всех этапах их жизненного цикла — от выявления и анализа до восстановления и постинцидентной работы.

В основе платформы лежит объектно-ориентированный подход: каждый элемент инцидента — будь то хост, учётная запись, процесс или артефакт — рассматривается как отдельный объект со своей историей, связями и возможными действиями.

Сценарии реагирования в системе динамические: плейбуки автоматически подстраиваются под развитие инцидента, появление новых данных и техник атак. Дополнительно платформа выстраивает цепочку Kill Chain, показывая, как развивалась атака и какие шаги предпринимал злоумышленник.

Система также предлагает рекомендации по дальнейшим действиям, опираясь на контекст инцидента, накопленный опыт SOC и ML-модели, включая оценку вероятности ложного срабатывания.

 

В новом релизе появился локальный ИИ-ассистент в формате чат-бота. Он работает полностью внутри инфраструктуры заказчика и не обращается к внешним сервисам. Ассистент учитывает контекст конкретного инцидента — его стадию, связанные объекты, историю действий и похожие кейсы — и помогает аналитикам разбираться в событиях, расшифровывать логи, понимать техники атак или формировать команды для диагностики. Модель может дообучаться прямо в SOC на результатах обработки инцидентов и аналитических бюллетенях, при этом все данные остаются внутри контура.

Ещё одно нововведение — ML-скоринг критичности инцидентов. Модель автоматически оценивает приоритет события на основе его масштаба и значимости затронутых активов, что упрощает триаж и помогает быстрее понять, какие инциденты требуют внимания в первую очередь.

Также в платформе появился ML-summary — автоматическое резюме по итогам расследования. При закрытии инцидента система формирует краткий отчёт в едином формате: что произошло, какие действия были выполнены, к какому результату они привели и удалось ли атакующему чего-то добиться. Такое резюме сохраняется в карточке инцидента и отчётности, упрощая передачу дел между сменами и снижая потерю контекста.

В целом обновление направлено на то, чтобы упростить и ускорить рутинную работу SOC: быстрее разбираться в инцидентах, снижать нагрузку на аналитиков и сохранять знания внутри команды без необходимости вручную оформлять каждый шаг расследования.

RSS: Новости на портале Anti-Malware.ru