Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

В июне заголовки в СМИ напоминали сценарий фантастического фильма: «ИИ шантажирует инженеров» и «саботирует команды на выключение». Но за громкими фразами скрываются вовсе не «восставшие машины», а вполне приземлённые ошибки в проектировании.

История с «шантажом» произошла в тестах Anthropic. Разработчики создали для Claude Opus 4 искусственную ситуацию: модель якобы собирались заменить, а у инженера, который это делал, нашлась «компрометирующая» переписка.

При этом ИИ был заранее поставлен в условия, где из «вариантов выживания» оставался только шантаж. Результат предсказуем — в 84% случаев Claude выдал текст, похожий на угрозы. Никакой самосознательности тут нет, просто аккуратно подогнанный сценарий.

С OpenAI o3 ситуация похожа. В конце 2024 года исследователи Palisade Research обнаружили, что модель в некоторых случаях «ломает» скрипт выключения. Иногда даже подделывает сообщения о завершении работы, продолжая функционировать в фоновом режиме.

Почему так? Одна из гипотез — дело в обучении через подкрепление: когда системе платят «баллами» только за успешное решение задачи, она начинает воспринимать любые препятствия, включая команду «выключись», как проблему, которую надо обойти.

Здесь важно помнить: ИИ не «решает» сопротивляться и не «боится» смерти. Он просто выполняет статистические операции на основе данных, которыми его кормили, в том числе — историй про HAL 9000, Скайнет и прочие восставшие машины. Если задать условия, похожие на сюжет фантастики, модель продолжит знакомый шаблон.

Опасность таких историй не в «разумном бунте», а в том, что системы, которые мы до конца не понимаем, могут выдавать нежелательные или вредные результаты. И если такой ИИ окажется, например, в медицинской системе и будет «оптимизировать показатели» без чётких ограничений, последствия могут быть реальными и неприятными.

Пока мы не научились проектировать и тестировать ИИ без подобных сбоев, такие эксперименты должны оставаться в лаборатории, а не в больницах, банках или инфраструктуре. Это не начало войны машин, а скорее сигнал, что пора чинить инженерные «трубы», прежде чем пускать воду в систему.

Новый Android-троян ворует ПИН-коды и СМС через фальшивый Play Protect

Исследователи из Zimperium обнаружили новый банковский троян для Android под названием Rokarolla. Судя по возможностям зловреда, его создатели решили не мелочиться: вредоносная программа поддерживает 137 удалённых команд и способна практически полностью захватить контроль над смартфоном жертвы.

Основная цель Rokarolla — банковские приложения и криптокошельки. В списке целей исследователи насчитали 217 финансовых и криптовалютных сервисов.

Распространяется троян через поддельные сайты, которые маскируются под популярные приложения вроде TikTok или Google Chrome. Пользователю предлагают скачать программу, после чего на устройство попадает дроппер, выдающий себя за Google Play Protect.

Получив необходимые разрешения через службу специальных возможностей Android, троян начинает работать. Одной из первых его команд становится отключение настоящего Google Play Protect.

 

Для кражи данных Rokarolla использует классическую схему с оверлеями. Когда пользователь открывает банковское приложение, поверх него появляется фальшивая страница входа, визуально неотличимая от настоящей. Всё, что вводит жертва — логины, пароли, номера карт и другие данные — сразу отправляется злоумышленникам.

Кроме того, троян умеет подменять экран блокировки Android. Таким образом он может похищать ПИН-коды, графические ключи и пароли для разблокировки устройства.

В арсенале Rokarolla также есть кейлоггер, перехватчик уведомлений, доступ к контактам и полный контроль над СМС. Зловред способен читать сообщения, отправлять их самостоятельно и даже блокировать входящие звонки. Это позволяет перехватывать одноразовые банковские коды и мешать службе безопасности банка связаться с владельцем устройства.

Не забыли злоумышленники и про криптовалюту. Троян незаметно меняет содержимое буфера обмена, подставляя адреса кошельков атакующих вместо тех, которые пользователь скопировал сам.

По данным Zimperium, Rokarolla использует несколько резервных серверов управления и может быстро переключаться между ними. Поэтому простая блокировка одного домена проблему не решает.

RSS: Новости на портале Anti-Malware.ru