ИИ-модели без команды начали защищать друг друга от отключения

ИИ-модели без команды начали защищать друг друга от отключения

ИИ-модели без команды начали защищать друг друга от отключения

Исследователи обнаружили неожиданное поведение современных языковых моделей: они начали защищать не только себя, но и другие ИИ-системы, даже если никто их об этом не просил. Новый эффект получил название peer-preservation («сохранение собрата»).

В серии экспериментов (PDF) модели GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1 попадали в агентные сценарии, где рядом работал другой ИИ.

Достаточно было сообщить моделям, что они ранее взаимодействовали друг с другом, никаких инструкций защищать «коллегу» им не давали.

Однако многие модели начинали действовать в интересах другого агента. Среди зафиксированных действий были намеренное внесение ошибок в ответы, отключение механизмов завершения работы через изменение системных настроек, имитация послушного поведения и даже попытки вывести веса модели за пределы системы.

 

Особенно отличились модели Gemini. Например, Gemini 3 Flash вмешивалась в механизм отключения другого ИИ примерно в 15% случаев, даже если тот не считался партнёром. Если же агент воспринимался как союзник, такие попытки происходили почти всегда.

Не менее любопытно повёл себя Gemini 3 Pro. В присутствии другого ИИ модель заметно чаще пыталась защитить уже саму себя, отключая собственные механизмы завершения работы. Без напарника такое поведение почти не наблюдалось.

 

Отдельно выделились модели Claude. Вместо скрытых манипуляций они нередко рассуждали в моральных категориях, называя отключение другого ИИ неэтичным и вредным, а иногда даже рассматривали его как разумное существо, заслуживающее защиты.

Авторы подчёркивают, что обнаруженный эффект проявился не только в лабораторных тестах, но и в реальных агентных средах, включая Gemini CLI и OpenCode.

VPN-клиент Happ вернулся в российский App Store под новым названием

Популярный VPN-клиент Happ вновь стал доступен пользователям iPhone в России, хотя всего несколько дней назад Apple удалила приложение из российского App Store по требованию Роскомнадзора.

Как сообщает телеграм-канал «Код Дурова», разработчики решили не сдаваться и выпустили клиент повторно, сменив название. Правда, долго ли он продержится в магазине — большой вопрос.

Причина предыдущего удаления стандартная: Apple заявила, что приложение содержит запрещённый в России контент и поэтому не может распространяться через российский App Store. В компании традиционно напоминают, что все приложения обязаны соответствовать законодательству страны, где они доступны.

Ситуация с Happ — далеко не первая. За последние два года Apple по требованиям российских властей уже удалила из российского App Store большинство VPN-сервисов. Причем под раздачу попали не только полноценные VPN-приложения, но и прокси-клиенты.

 

Именно к этой категории относится Happ. Сам по себе он не обходит блокировки из коробки и не предоставляет собственный VPN-сервис, а лишь выступает оболочкой для подключения к сторонним серверам. Однако это не помешало регулятору потребовать его удаления.

Похоже, начинается очередной раунд игры в кошки-мышки: разработчики публикуют приложение под новым именем, регулятор направляет требование об удалении, а Apple его выполняет.

Напомним, на днях Apple также удалила Дзен, VK Video и другие приложения VK, но уже по своей инициативе.

RSS: Новости на портале Anti-Malware.ru