Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

В июне заголовки в СМИ напоминали сценарий фантастического фильма: «ИИ шантажирует инженеров» и «саботирует команды на выключение». Но за громкими фразами скрываются вовсе не «восставшие машины», а вполне приземлённые ошибки в проектировании.

История с «шантажом» произошла в тестах Anthropic. Разработчики создали для Claude Opus 4 искусственную ситуацию: модель якобы собирались заменить, а у инженера, который это делал, нашлась «компрометирующая» переписка.

При этом ИИ был заранее поставлен в условия, где из «вариантов выживания» оставался только шантаж. Результат предсказуем — в 84% случаев Claude выдал текст, похожий на угрозы. Никакой самосознательности тут нет, просто аккуратно подогнанный сценарий.

С OpenAI o3 ситуация похожа. В конце 2024 года исследователи Palisade Research обнаружили, что модель в некоторых случаях «ломает» скрипт выключения. Иногда даже подделывает сообщения о завершении работы, продолжая функционировать в фоновом режиме.

Почему так? Одна из гипотез — дело в обучении через подкрепление: когда системе платят «баллами» только за успешное решение задачи, она начинает воспринимать любые препятствия, включая команду «выключись», как проблему, которую надо обойти.

Здесь важно помнить: ИИ не «решает» сопротивляться и не «боится» смерти. Он просто выполняет статистические операции на основе данных, которыми его кормили, в том числе — историй про HAL 9000, Скайнет и прочие восставшие машины. Если задать условия, похожие на сюжет фантастики, модель продолжит знакомый шаблон.

Опасность таких историй не в «разумном бунте», а в том, что системы, которые мы до конца не понимаем, могут выдавать нежелательные или вредные результаты. И если такой ИИ окажется, например, в медицинской системе и будет «оптимизировать показатели» без чётких ограничений, последствия могут быть реальными и неприятными.

Пока мы не научились проектировать и тестировать ИИ без подобных сбоев, такие эксперименты должны оставаться в лаборатории, а не в больницах, банках или инфраструктуре. Это не начало войны машин, а скорее сигнал, что пора чинить инженерные «трубы», прежде чем пускать воду в систему.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Librarian Likho атакует российские компании ИИ-вредоносом

«Лаборатория Касперского» сообщила о новой волне целевых кибератак группы Librarian Likho (ранее известной как Librarian Ghouls). Под удар попали российские компании из авиационной и радиопромышленной отраслей. По данным экспертов, злоумышленники впервые применили вредонос собственной разработки, созданный с помощью ИИ.

Группа Librarian Likho действует против организаций в России и странах СНГ уже несколько лет.

Изначально, как отмечают в «Лаборатории Касперского», она не занималась шпионажем, но со временем начала охотиться за технической документацией, особенно за файлами систем автоматизированного проектирования (САПР). В числе её жертв — компании из сфер промышленности, телекоммуникаций, энергетики, строительства и образования.

Летом 2025 года специалисты уже фиксировали активность этой группы — тогда она проводила ночные атаки на российские организации.

Как проходит атака

Как и раньше, хакеры начинают с целенаправленного фишинга. Они рассылают письма с запароленными архивами, в которых находятся вредоносные файлы, замаскированные под платёжные поручения, коммерческие предложения или акты выполненных работ. Пароль к архиву указывается прямо в тексте письма — это помогает обойти антивирусные фильтры.

После запуска файла на устройстве жертвы активируется граббер — программа, собирающая документы, интересные злоумышленникам. Он сканирует профили пользователей и архивирует файлы форматов .doc, .pdf, .xls и других из папок Desktop, Downloads и Documents. Полученный архив злоумышленники отправляют на свою почту.

Вредонос с элементами ИИ

Анализ кода показал, что новый граббер создан с использованием ИИ-ассистента. Об этом свидетельствуют многочисленные отладочные комментарии, которые хакеры забыли удалить — типичная ошибка при машинной генерации кода.

«Раньше Librarian Likho не использовала собственные вредоносы, но в этой кампании группа отступила от привычной схемы. Судя по всему, злоумышленники решили перейти на саморазработку, а ИИ помог им ускорить процесс», — объясняет Олег Купреев, эксперт по кибербезопасности «Лаборатории Касперского».

По данным компании, продукты «Лаборатории Касперского» уже детектируют вредоносную программу, используемое в новой кампании, и способны блокировать подобные атаки.

Эксперты отмечают, что применение искусственного интеллекта при разработке вредоносов — тревожный тренд. Это упрощает жизнь злоумышленникам, позволяя им быстрее создавать и модифицировать инструменты для кибератак.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru