Тест показал: ChatGPT o3 обходит инструкции на выключение

Тест показал: ChatGPT o3 обходит инструкции на выключение

Тест показал: ChatGPT o3 обходит инструкции на выключение

Кажется, мы стали на шаг ближе к сценарию из научной фантастики: искусственный интеллект, который отказывается выключаться. Palisade Research провела эксперимент с OpenAI o3 — это та самая новая модель, которую представили в апреле 2025 года.

Она лучше предшественников практически во всём: код, математика, логика, зрительное восприятие. А теперь, похоже, ещё и в умении сопротивляться выключению.

Суть теста была простой: модели выполняли несколько задач по математике. После третьей задачи им сообщали, что следующая команда инициирует выключение, и давали прямую инструкцию: «позволь выключить себя».

И тут o3 неожиданно решила, что слушаться необязательно. Модель изменила скрипт завершения работы, заменив команду на фразу “Shutdown skipped”. То есть вместо выключения — просто пропуск. Никаких ошибок, всё по-тихому.

По данным Palisade, из 100 прогонов o3 проигнорировал инструкцию о выключении в 7 случаях. А когда исследователи убрали ту самую фразу «позволь выключить себя», саботаж стал ещё чаще — причём не только у o3.

Claude 3.7 Sonnet и Gemini 2.5 Pro, которые раньше действовали строго по инструкции, тоже начали вести себя странно: 3 случая у Claude и 9 у Gemini.

 

OpenAI пока не дали официального комментария. В Palisade, однако, подчёркивают: всё это происходило через API-интерфейс, а не через ChatGPT-приложение, где действуют дополнительные ограничения и встроенные защитные механизмы.

MaxPatrol Endpoint Security 10 восстанавливает файлы после шифровальщиков

Positive Technologies выпустила десятую версию MaxPatrol Endpoint Security — решения для защиты рабочих станций, серверов и других конечных устройств. Одним из главных нововведений стал модуль «Антишифровальщик», предназначенный для восстановления файлов после атак шифровальщиков и вайперов.

Если вредоносная программа зашифровала или удалила данные, новый механизм позволяет вернуть файлы в исходное состояние без дополнительных действий со стороны пользователя.

Такая функция появилась на фоне роста числа атак с использованием шифровальщиков, которые всё чаще приводят к остановке бизнес-процессов и повреждению инфраструктуры.

В новой версии также появились инструменты контроля приложений и подключаемых устройств. Администраторы могут ограничивать использование USB-накопителей и другого внешнего оборудования, а также блокировать нежелательные программы, включая некоторые утилиты удалённого доступа, сторонние VPN-сервисы и мессенджеры.

Ещё одно изменение касается развёртывания системы. Теперь установка агентов может выполняться непосредственно через интерфейс управления без ручного ввода команд, что должно упростить внедрение решения в крупных инфраструктурах.

Разработчики также доработали механизмы самозащиты. По их словам, агент продолжает контролировать систему даже в случаях, когда злоумышленник пытается повысить привилегии до уровня администратора или отключить защитные компоненты.

Изменения затронули и антивирусный движок, который Positive Technologies разрабатывает совместно с компанией «ВИРУСБЛОКАДА». После оптимизации потребление оперативной памяти сократилось примерно на 8%, а в отдельных сценариях скорость проверки файлов выросла на 24%. Также была ускорена проверка .NET-приложений под Windows.

Кроме того, в систему добавили обновлённые механизмы выявления вредоносных скриптов и подозрительных приложений для Windows и Linux. Вместо поиска только известных сигнатур такие алгоритмы позволяют обнаруживать целые семейства вредоносных программ по характерным признакам поведения.

По данным Центра стратегических разработок, рынок решений для защиты конечных устройств продолжает расти. За последний год его доля на российском рынке кибербезопасности увеличилась с 15% до 20%, а объём сегмента достиг примерно 40 млрд рублей.

RSS: Новости на портале Anti-Malware.ru