Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Кадровый дефицит и информационная безопасность — главные риски Open Source

Компания «Монк Диджитал Лаб» изучила, как российский бизнес использует Open Source в первой половине 2025 года. В опросе участвовали 138 крупных и средних компаний из разных отраслей, и главный вывод такой: открытое ПО проникло буквально во все инфраструктуры, но вместе с этим вырос и список рисков.

На первом месте — информационная безопасность. 81 % компаний назвали её ключевой проблемой. Опасения связаны с уязвимостями в коде, возможными закладками и зависимостью от зарубежных обновлений. Особенно остро вопрос стоит у банков и госорганов, для которых критично соответствовать требованиям регуляторов.

Следующий крупный блок рисков — стабильность и надёжность. 62 % опрошенных считают, что Open Source-системы чаще подвержены сбоям и багам. Бизнес опасается, что критичные базы данных или операционные системы могут «лечь» под нагрузкой, вызвав простои. Подобные инциденты, как отмечают участники исследования, действительно происходили.

Отдельная боль — дефицит специалистов. 52 % компаний признались, что им не хватает кадров для поддержки и настройки OSS. Особенно это ощущается в промышленности и регионах, где сложно найти опытных DevOps или администраторов.

38 % респондентов упомянули отсутствие официальной поддержки и SLA. Для крупных предприятий и банков это серьёзная проблема: если продукт сломается, предъявлять претензии некому, всё ложится на внутренние команды. Некоторые решают вопрос через контракты с интеграторами, но практика пока мало распространена.

Есть и юридические риски. 36 % компаний боятся изменения лицензий (например, перехода на SSPL), санкций против площадок вроде GitHub или Docker Hub, а также правовой неопределённости некоторых открытых лицензий в России. Финансовый сектор и телеком здесь особенно тревожатся: проект может сменить условия, а доступ к репозиторию окажется закрыт по внешнеполитическим причинам.

Дополнительно компании упоминали проблемы с масштабированием (32 %), высокой совокупной стоимостью владения (20 %) и совместимостью с отечественным ПО (15 %).

Несмотря на все эти опасения, российский бизнес продолжает внедрять Open Source. Но делает это осторожнее — параллельно формируя меры защиты от возможных угроз.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru