Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Для macOS появился первый зловред, написанный с помощью ИИ

Специалисты Mosyle обнаружили необычную и довольно тревожную вредоносную кампанию под macOS. И дело тут не только в том, что речь снова идёт о криптомайнере. По данным исследователей, это первый зафиксированный в «дикой природе» macOS-зловред, в коде которого явно прослеживаются следы генеративного ИИ.

На момент обнаружения вредонос не детектировался ни одним крупным антивирусным движком, что само по себе уже неприятно.

И это особенно интересно на фоне предупреждений Moonlock Lab годичной давности — тогда исследователи писали, что на подпольных форумах активно обсуждают использование LLM для написания macOS-зловредов. Теперь это перестало быть теорией.

Кампанию назвали SimpleStealth. Распространяется она через фейковый сайт, маскирующийся под популярное ИИ-приложение Grok. Злоумышленники зарегистрировали домен-двойник и предлагают скачать «официальный» установщик для macOS.

После запуска пользователь действительно видит полноценное приложение, которое выглядит и ведёт себя как настоящий Grok. Это классический приём: фейковая оболочка отвлекает внимание, пока вредонос спокойно работает в фоне и остаётся незамеченным как можно дольше.

При первом запуске SimpleStealth аккуратно обходит защитные функции системы. Приложение просит ввести пароль администратора — якобы для завершения настройки. На самом деле это позволяет снять карантинные ограничения macOS и подготовить запуск основной нагрузки.

С точки зрения пользователя всё выглядит нормально: интерфейс показывает привычный ИИ-контент, ничего подозрительного не происходит.

А внутри — криптомайнер Monero (XMR), который позиционируется как «конфиденциальный и неотслеживаемый». Он работает максимально осторожно:

  • запускается только если macOS-устройство бездействует больше минуты;
  • мгновенно останавливается при движении мыши или вводе с клавиатуры;
  • маскируется под системные процессы вроде kernel_task и launchd.

В итоге пользователь может долго не замечать ни повышенной нагрузки, ни утечки ресурсов.

Самая интересная деталь — код зловреда. По данным Mosyle, он буквально кричит о своём ИИ-происхождении: чрезмерно подробные комментарии, повторяющаяся логика, смесь английского и португальского — всё это типичные признаки генерации с помощью LLM.

Именно этот момент делает историю особенно тревожной. ИИ резко снижает порог входа для киберпреступников. Если раньше создание подобного зловреда требовало серьёзной квалификации, теперь достаточно интернета и правильно сформулированных запросов.

Рекомендация здесь стара как мир, но по-прежнему актуальна: не устанавливайте приложения с сомнительных сайтов. Загружайте софт только из App Store или с официальных страниц разработчиков, которым вы действительно доверяете.

Индикаторы компрометации приводим ниже:

Семейство вредоносов: SimpleStealth

Имя распространяемого файла: Grok.dmg

Целевая система: macOS

Связанный домен: xaillc[.]com

Адрес кошелька:

4AcczC58XW7BvJoDq8NCG1esaMJMWjA1S2eAcg1moJvmPWhU1PQ6ZYWbPk3iMsZSqigqVNQ3cWR8MQ43xwfV2gwFA6GofS3

Хеши SHA-256:

  • 553ee94cf9a0acbe806580baaeaf9dea3be18365aa03775d1e263484a03f7b3e (Grok.dmg)
  • e379ee007fc77296c9ad75769fd01ca77b1a5026b82400dbe7bfc8469b42d9c5 (Grok wrapper)
  • 2adac881218faa21638b9d5ccc05e41c0c8f2635149c90a0e7c5650a4242260b (grok_main.py)
  • 688ad7cc98cf6e4896b3e8f21794e33ee3e2077c4185bb86fcd48b63ec39771e (idle_monitor.py)
  • 7813a8865cf09d34408d2d8c58452dbf4f550476c6051d3e85d516e507510aa0 (working_stealth_miner.py)

RSS: Новости на портале Anti-Malware.ru