Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Android-ботнет Kimwolf заразил миллионы устройств через прокси

Исследователи зафиксировали масштабную активность Android-ботнета Kimwolf, который, по оценкам компании Synthient, уже заразил более 2 миллионов устройств. Причём делает он это не напрямую, а довольно изобретательно — через сети резидентских прокси, маскируя атаки под обычный пользовательский трафик.

По данным аналитиков, операторы Kimwolf активно монетизируют ботнет сразу по нескольким направлениям: продают установки приложений, сдают в аренду резидентский прокси-трафик и предлагают услуги DDoS-атак. И, судя по масштабам, спрос на всё это есть.

Впервые Kimwolf публично описали специалисты QiAnXin XLab всего месяц назад, обратив внимание на его связь с другим ботнетом — AISURU. Сейчас исследователи считают Kimwolf Android-вариантом этой сети. Более того, есть основания полагать, что именно он стоял за серией рекордных DDoS-атак, зафиксированных в конце прошлого года.

Заражённые устройства превращаются в «транзитные узлы» для вредоносного трафика и используются для DDoS в промышленных масштабах. Основные очаги заражений — Вьетнам, Бразилия, Индия и Саудовская Аравия. Synthient отмечает, что ботнет оперирует примерно 12 миллионами уникальных IP-адресов в неделю.

 

Главная точка входа — Android Debug Bridge (ADB), оставленный открытым и незащищённым. Более 67% устройств в ботнете имеют включённый ADB без аутентификации. Атакующие сканируют Сеть с помощью инфраструктуры на базе резидентских прокси и устанавливают зловред напрямую. В зоне риска — неофициальные ТВ-приставки и смарт-телевизоры, которые нередко поставляются уже с сомнительными SDK.

Отдельный интерес вызывает связь кампании с коммерческими прокси-сервисами. В декабре 2025 года заражения Kimwolf активно использовали IP-адреса, сдаваемые в аренду китайской компанией IPIDEA — крупным поставщиком прокси с миллионами обновляемых IP. После инцидента IPIDEA закрыла доступ к локальным сетям и чувствительным портам, но, по мнению исследователей, ущерб к тому моменту уже был нанесён.

Схема проста: через прокси-сеть атакующие проникают во внутренние сети устройств, на которые установлен прокси-софт, и загружают основной пейлоад. Он слушает порт 40860 и связывается с управляющим сервером для получения команд.

На этом монетизация не заканчивается. Заражённые устройства также получают SDK сервиса Plainproxies Byteconnect, который превращает их в источник платного интернет-трафика. По данным Synthient, инфраструктура использует 119 ретрансляционных серверов и задействуется для атак вида credential stuffing на IMAP-серверы и популярные веб-сервисы.

«Масштаб проблемы оказался беспрецедентным — миллионы устройств были фактически открыты для атак», — отмечают аналитики. — «Особенно тревожный сигнал — обнаружение предустановленных заражённых ТВ-боксов и всё более тесная связка между киберпреступниками и коммерческими прокси-провайдерами».

В качестве мер защиты эксперты советуют прокси-сервисам блокировать обращения к приватным IP-диапазонам (RFC 1918), а организациям и пользователям — жёстко закрывать доступ к ADB и не использовать устройства с подозрительным или неофициальным Android-софтом. В противном случае телевизор или приставка легко могут превратиться в часть чужого ботнета.

RSS: Новости на портале Anti-Malware.ru