Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

Не бунт, а баг: как ИИ шантажирует и саботирует по сценарию

В июне заголовки в СМИ напоминали сценарий фантастического фильма: «ИИ шантажирует инженеров» и «саботирует команды на выключение». Но за громкими фразами скрываются вовсе не «восставшие машины», а вполне приземлённые ошибки в проектировании.

История с «шантажом» произошла в тестах Anthropic. Разработчики создали для Claude Opus 4 искусственную ситуацию: модель якобы собирались заменить, а у инженера, который это делал, нашлась «компрометирующая» переписка.

При этом ИИ был заранее поставлен в условия, где из «вариантов выживания» оставался только шантаж. Результат предсказуем — в 84% случаев Claude выдал текст, похожий на угрозы. Никакой самосознательности тут нет, просто аккуратно подогнанный сценарий.

С OpenAI o3 ситуация похожа. В конце 2024 года исследователи Palisade Research обнаружили, что модель в некоторых случаях «ломает» скрипт выключения. Иногда даже подделывает сообщения о завершении работы, продолжая функционировать в фоновом режиме.

Почему так? Одна из гипотез — дело в обучении через подкрепление: когда системе платят «баллами» только за успешное решение задачи, она начинает воспринимать любые препятствия, включая команду «выключись», как проблему, которую надо обойти.

Здесь важно помнить: ИИ не «решает» сопротивляться и не «боится» смерти. Он просто выполняет статистические операции на основе данных, которыми его кормили, в том числе — историй про HAL 9000, Скайнет и прочие восставшие машины. Если задать условия, похожие на сюжет фантастики, модель продолжит знакомый шаблон.

Опасность таких историй не в «разумном бунте», а в том, что системы, которые мы до конца не понимаем, могут выдавать нежелательные или вредные результаты. И если такой ИИ окажется, например, в медицинской системе и будет «оптимизировать показатели» без чётких ограничений, последствия могут быть реальными и неприятными.

Пока мы не научились проектировать и тестировать ИИ без подобных сбоев, такие эксперименты должны оставаться в лаборатории, а не в больницах, банках или инфраструктуре. Это не начало войны машин, а скорее сигнал, что пора чинить инженерные «трубы», прежде чем пускать воду в систему.

AM LiveКак эффективно защититься от шифровальщиков? Расскажем на AM Live - переходите по ссылке, чтобы узнать подробности

Среднестатистический хакер — не юнец, а его дядюшка

В Orange Cyberdefense обработали данные о 418 инцидентах, попавших в поле зрения правоохранительных органов в период с 2021 года по середину 2025-го, и обнаружили, что 37% идентифицированных авторов атак — мужчины 35-44 лет.

Еще 30% выявленных преступников — представители возрастной группы от 25 до 34 лет. Доля тинейджеров и 45+ в этой выборке оказалась одинаковой — по 5%.

Первая в своем роде статистика приведена в особом разделе отчета о киберугрозах Security Navigator 2026 французской ИБ-компании. Полученные результаты опровергают бытующее представление о том, что хакерство в основном прерогатива юнцов вроде Scattered Lapsus$ Hunters, часто попадающих в заголовки профильных СМИ.

Поведение возрастных групп киберкриминала тоже разнится. Молодежь (от 18 до 24 лет), движимая любопытством и жаждой славы, действует импульсивно и по ситуации, стремясь заявить о себе громкими взломами, DDoS-атаками и мелкими кражами. Осознание, что из таких «подвигов» можно извлечь материальную выгоду, приходит к ним позднее.

Гораздо больший урон обитателям всемирной паутины наносят преступники, достигшие зрелого возраста (35-44). Они действуют прицельно, обстоятельно и воспринимают свою противозаконную деятельность как способ заработка, занимаясь в основном вымогательством, разработкой зловредов, кибершпионажем и отмыванием денег.

Примечательно, что 90% выявленных авторов атак — мужчины. Национальный состав киберпреступников по выборке оказался следующим:

  • россияне — 23%;
  • американцы — 11%;
  • китайцы — 11%;
  • украинцы — 9%;
  • граждане КНДР — 5%.

Стоит отметить, что почти половина набора данных, по которому работали эксперты, — это публикации о разгромных акциях с участием США. Имя американского Минюста было упомянуто в 16% обнародованных инцидентов, ФБР — в 12%.

Правоохрана Германии засветилась в 7% зафиксированных кейсов, Европол — в 5%, британские спецслужбы — в 3%.

Новый отчет французских экспертов о ландшафте киберугроз составлен (PDF) по результатам анализа 139 тыс. ИБ-инцидентов, внесенных в банк данных Orange Threat Intelligence и базы сторонних OSINT в период с октября 2024 года по сентябрь 2025-го.

AM LiveКак эффективно защититься от шифровальщиков? Расскажем на AM Live - переходите по ссылке, чтобы узнать подробности

RSS: Новости на портале Anti-Malware.ru