Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Ghostwriter снова атакует Украину: PDF-приманки ведут к Cobalt Strike

Киберпреступная группа Ghostwriter устроила новую серию атак на украинские госорганизации. По данным ESET, кампания идёт как минимум с марта 2026 года и нацелена прежде всего на структуры, связанные с государственным сектором, обороной и военной тематикой.

Ghostwriter — не новичок в этом жанре. Группировка активна как минимум с 2016 года и известна кибершпионажем, фишингом и информационными операциями против стран Восточной Европы, особенно Украины.

У неё целый набор псевдонимов: FrostyNeighbor, PUSHCHA, Storm-0257, TA445, UAC-0057, Umbral Bison, UNC1151 и White Lynx. Похоже на рэпера с кризисом идентичности.

В новой кампании злоумышленники рассылают целевые фишинговые письма с PDF-документами. Приманки маскируются под материалы украинской телекоммуникационной компании «Укртелеком». Внутри PDF находится ссылка, которая ведёт к RAR-архиву с JavaScript-пейлоадом.

Дальше начинается привычная матрёшка атакующих: скрипт показывает жертве отвлекающий документ, чтобы всё выглядело правдоподобно, а в фоне запускает JavaScript-версию PicassoLoader. Этот загрузчик затем может привести к установке Cobalt Strike Beacon — инструмента, который легитимно используется для пентестов, но давно стал любимой игрушкой атакующих.

При этом Ghostwriter не раздаёт вредоносную нагрузку всем подряд. В цепочке есть геофильтр: если IP-адрес жертвы не относится к Украине, сервер отдаёт безвредный PDF. Кроме того, PicassoLoader собирает отпечаток заражённой системы и отправляет его на инфраструктуру атакующих каждые 10 минут. После этого операторы вручную решают, стоит ли продолжать атаку и отправлять следующий этап.

Раньше Ghostwriter уже использовала PicassoLoader для доставки Cobalt Strike и njRAT, а также эксплуатировала уязвимость WinRAR CVE-2023-38831. В 2025 году группировка атаковала польские организации через уязвимость Roundcube CVE-2024-42009, похищая учётные данные почты. Полученные аккаунты могли использоваться для изучения переписки, выгрузки контактов и дальнейшей рассылки фишинга.

К концу 2025 года Ghostwriter добавила ещё один трюк — документы-приманки с динамической CAPTCHA. Идея проста: усложнить анализ и не палиться перед автоматическими системами проверки.

По оценке ESET, группировка продолжает обновлять инструменты, приманки и методы доставки. В Польше и Литве её цели шире: промышленность, производство, медицина, фармацевтика, логистика и госструктуры. В Украине же фокус заметно смещён на государственные, оборонные и военные организации.

RSS: Новости на портале Anti-Malware.ru