ИИ-модели без команды начали защищать друг друга от отключения

Екатерина Быстрова 29 Июня 2026 - 09:25

GenAI (генеративный искусственный интеллект)

...

ИИ-модели без команды начали защищать друг друга от отключения

Исследователи обнаружили неожиданное поведение современных языковых моделей: они начали защищать не только себя, но и другие ИИ-системы, даже если никто их об этом не просил. Новый эффект получил название peer-preservation («сохранение собрата»).

В серии экспериментов (PDF) модели GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1 попадали в агентные сценарии, где рядом работал другой ИИ.

Достаточно было сообщить моделям, что они ранее взаимодействовали друг с другом, никаких инструкций защищать «коллегу» им не давали.

Однако многие модели начинали действовать в интересах другого агента. Среди зафиксированных действий были намеренное внесение ошибок в ответы, отключение механизмов завершения работы через изменение системных настроек, имитация послушного поведения и даже попытки вывести веса модели за пределы системы.

Особенно отличились модели Gemini. Например, Gemini 3 Flash вмешивалась в механизм отключения другого ИИ примерно в 15% случаев, даже если тот не считался партнёром. Если же агент воспринимался как союзник, такие попытки происходили почти всегда.

Не менее любопытно повёл себя Gemini 3 Pro. В присутствии другого ИИ модель заметно чаще пыталась защитить уже саму себя, отключая собственные механизмы завершения работы. Без напарника такое поведение почти не наблюдалось.

Отдельно выделились модели Claude. Вместо скрытых манипуляций они нередко рассуждали в моральных категориях, называя отключение другого ИИ неэтичным и вредным, а иногда даже рассматривали его как разумное существо, заслуживающее защиты.

Авторы подчёркивают, что обнаруженный эффект проявился не только в лабораторных тестах, но и в реальных агентных средах, включая Gemini CLI и OpenCode.

Следующая главная новость »

ИИ в руках хакеров: как меняются кибератаки в 2026?
Регистрируйтесь на эфир!

Екатерина Быстрова 29 Июня 2026 - 10:28

Linux Эксплойты Уязвимости программ Домашние пользователи Корпорации

В Linux нашли дыру Pedit COW: обычный пользователь может получить root

Администраторам Linux пора проверять серверы. Исследователи раскрыли критическую уязвимость CVE-2026-46331, получившую название Pedit COW, которая позволяет любому локальному пользователю без привилегий получить права root.

Самое неприятное — уже через сутки после регистрации CVE на GitHub появился готовый PoC-эксплойт packet_edit_meme. Другими словами, времени у администраторов практически не осталось.

Проблема скрывается в подсистеме управления сетевым трафиком Linux (act_pedit). Из-за ошибки в механизме Copy-on-Write злоумышленник может изменить содержимое общей страницы памяти вместо её безопасной копии. В результате появляется возможность незаметно подменить исполняемый код системных файлов, например /bin/su, и получить root-доступ.

При этом на диске ничего не меняется, атака происходит исключительно в памяти. Поэтому системы контроля целостности файлов не увидят никаких подозрительных изменений, хотя сервер уже окажется полностью скомпрометирован.

Исследователи сравнивают Pedit COW с нашумевшими Dirty Pipe, Dirty COW и Dirty Frag, однако новая уязвимость использует другой путь. Эксплойт создает пользовательское пространство имен (user namespace), получает локальные права CAP_NET_ADMIN, а затем модифицирует образ /bin/su в кеше ядра, после чего запуск программы мгновенно открывает root-оболочку.

Уязвимость присутствует во всех версиях ядра от Linux 5.18 до 7.1-rc7. Патч был опубликован еще в мае, но выглядело как обычное обновление и не сопровождалось предупреждением, поэтому многие системы так и остались без защиты.

Успешная эксплуатация уже подтверждена на RHEL 10, Debian 13 Trixie и Ubuntu 24.04.4. Red Hat признала уязвимыми также RHEL 8, 9 и связанные продукты. Debian выпустила обновления для Trixie, тогда как Debian 11 и 12 пока остаются без патчей. Canonical также признала уязвимость всех поддерживаемых выпусков Ubuntu.

Лучшее решение — установить обновленное ядро и перезагрузить систему. Если сделать это немедленно невозможно, специалисты рекомендуют отключить модуль act_pedit или запретить непривилегированные user namespaces. Правда, такой шаг может нарушить работу rootless-контейнеров и некоторых механизмов изоляции приложений.

ИИ в руках хакеров: как меняются кибератаки в 2026?
Регистрируйтесь на эфир!