Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Head Mare атакует российские госструктуры новым бэкдором PhantomHeart

Хактивистская группировка Head Mare снова активизировалась. Аналитики Cyber Threat Intelligence «Лаборатории Касперского» в конце 2025 года зафиксировали новую волну целевых атак на российские госструктуры, строительные и промышленные компании. И судя по всему, инструментарий группы стал более продуманным и автоматизированным.

Главная находка — новый бэкдор PhantomHeart. Изначально он распространялся как DLL-библиотека, но позже злоумышленники переработали его в PowerShell-скрипт.

Это вписывается в стратегию Living-off-the-Land (LOTL), когда атакующие используют штатные инструменты Windows, чтобы не привлекать лишнего внимания. Чем меньше стороннего «зловреда» на диске, тем сложнее его обнаружить.

Вектор первоначального доступа остаётся прежним. Head Mare продолжает эксплуатировать уязвимость BDU:2025-10114 в TrueConf Server. В отдельных случаях используются и фишинговые рассылки. То есть проверенные способы проникновения сочетаются с обновлённой «начинкой» внутри сети.

PhantomHeart после запуска разворачивает SSH-туннель по команде с сервера управления. Это даёт операторам устойчивый удалённый доступ к системе. Параллельно бэкдор собирает базовую информацию: имя компьютера, домен, внешний IP и уникальный идентификатор.

Закрепление в системе тоже продумано: в одной из атак вредонос запускался через планировщик заданий под видом легитимного скрипта обновления в директории LiteManager — популярного инструмента удалённого администрирования. Фактически активность маскировалась под обычную работу ПО.

Кроме того, эксперты отмечают рост автоматизации. Head Mare добавила новые скрипты и утилиты для постэксплуатации. Они помогают автоматически закрепляться в системе, управлять привилегиями и организовывать сетевой доступ. Такой подход снижает «ручную» нагрузку на операторов и позволяет проводить больше атак с большей скоростью и повторяемостью.

Продукты «Лаборатории Касперского» детектируют используемые инструменты под различными вердиктами, включая HEUR:Trojan-Ransom.Win32., Backdoor.PowerShell.Agent.gen и Trojan.PowerShell.Agent..

Подробный технический разбор новой активности Head Mare опубликован на Securelist. Аналитики также отмечают, что тактики и процедуры этой группировки вписываются в более широкую картину угроз, описанную в отчёте «Записки цифрового ревизора: три кластера угроз в киберпространстве».

RSS: Новости на портале Anti-Malware.ru