Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

WhatsApp закрывает лазейку, через которую атакующие узнавали вашу ОС

Meta (признана экстремистской и запрещена в России) начала постепенно закрывать уязвимости в WhatsApp, которые позволяли определять операционную систему пользователя без его ведома. Речь идёт не о взломе аккаунта напрямую, а о снятии цифрового отпечатка — сборе метаданных, которые помогают атакующим понять, какое именно устройство и ОС у жертвы, чтобы затем подобрать подходящий вектор атаки.

Почему это важно? Потому что WhatsApp — один из самых привлекательных каналов доставки шпионского софта.

У мессенджера около 3 млрд пользователей, а редкие 0-day уязвимости в нём ценятся на вес золота: за полноценную цепочку эксплойтов на рынке могут предлагать до миллиона долларов. Именно такие уязвимости, например, использовались в атаках с применением шпионского инструмента Paragon, о которых стало известно в 2025 году.

Прежде чем задействовать zero-day, злоумышленникам нужно понять, какую ОС использует цель — Android, iOS или веб-версию на десктопе. Как выяснили исследователи за последние пару лет, для этого достаточно одного номера телефона. Никаких кликов, сообщений или уведомлений жертве не требуется — она даже не узнает, что данные о её устройстве уже собраны.

Атакующие могут определить основной девайс пользователя, ОС всех привязанных устройств, примерный «возраст» этих устройств и даже то, используется ли WhatsApp через приложение или браузер. Всё это стало возможным из-за предсказуемых значений идентификаторов ключей шифрования, которые WhatsApp присваивал устройствам.

Одним из ключевых исследователей этой темы стал Таль Беэри, сооснователь и CTO криптокошелька Zengo. Он и его коллеги давно сообщали Meta (признана экстремистской и запрещена в России) о проблеме, но разработчики отреагировали только недавно. Беэри заметил, что WhatsApp начал рандомизировать идентификаторы ключей на Android, что уже серьёзно осложняет снятие цифрового отпечатка.

 

Полностью проблема, впрочем, не решена. По словам исследователя, отличить Android от iPhone всё ещё можно с высокой точностью: iOS использует постепенно увеличивающиеся значения, тогда как Android — случайные в полном 24-битном диапазоне. Тем не менее Беэри считает, что это первый шаг к полноценному фиксу, который закроет уязвимость на всех платформах.

При этом исследователь раскритиковал «тихий» характер изменений: пользователи не знают, что именно было исправлено, а сами отчёты не получили CVE-идентификаторов. В Meta с этим не совсем согласны.

В корпорации пояснили, что определение ОС само по себе не считается серьёзной проблемой. Во-первых, снятие отпечатка возможно не только в WhatsApp, но и во многих других сервисах. Во-вторых, сами операционные системы часто намеренно «подсказывают» свою платформу ради удобства пользователей. И наконец, без 0-day такая информация имеет ограниченную практическую ценность для атакующих.

Тем не менее в компании признали, что отчёт Беэри помог улучшить обработку некорректных сообщений и доработать процессы поиска уязвимостей. Исследователь получил вознаграждение, а Meta напомнила, что всего за время существования программы баг-баунти выплатила $25 млн, из них $4 млн — в 2025 году.

RSS: Новости на портале Anti-Malware.ru