Атака BEAST за минуту заставит большую языковую модель забыть об этике

Татьяна Никитина 29 Февраля 2024 - 15:53

...

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Следующая главная новость »

Secrets Management 2026: где на самом деле сливаются ключи? Регистрируйтесь на эфир AM Live!

Екатерина Быстрова 13 Февраля 2026 - 12:27

R-Vision SGRC Корпорации Средства управления информационной безопасностью Системы управления процессами информационной безопасности (SGRC) R-Vision

В R-Vision SGRC появилась возможность управления операционными рисками

R-Vision сообщила о расширении функциональности системы R-Vision SGRC. В обновлённой версии добавлены новые инструменты для управления рисками информационной безопасности и операционными рисками в целом. Новый функционал ориентирован прежде всего на организации с высокой регуляторной нагрузкой — банки, страховые и другие финансовые компании.

Для них управление рисками напрямую связано с устойчивостью бизнеса и выполнением требований регуляторов. Впервые обновлённую версию продукта представят на Уральском форуме «Кибербезопасность в финансах».

В основе изменений — подход, при котором каждый риск рассматривается как отдельный объект со своим жизненным циклом. Он фиксируется в момент выявления и обрабатывается индивидуально: с собственным воркфлоу, ответственными и сроками.

Такой механизм не зависит от общего цикла периодического пересмотра и позволяет выстраивать непрерывную работу с рисками. Если меняются исходные параметры или статус мероприятий по их снижению, система инициирует переоценку и направляет риск на дополнительный анализ.

При анализе система автоматически дополняет данные бизнес-контекстом, доступным в организации. Например, учитывается ценность актива и его роль в бизнес-процессах. Это реализовано через интеграции со смежными информационными системами и должно помочь более точно оценивать приоритеты.

Для упрощения запуска предусмотрены преднастроенный воркфлоу и типовая методика оценки операционных рисков, разработанная R-Vision. При необходимости её можно адаптировать под требования конкретной компании или создать собственную методику с помощью встроенного конструктора.

По сути, с расширением функциональности R-Vision SGRC выходит за рамки исключительно ИБ-рисков и становится инструментом для комплексного управления рисками на уровне всей организации.

Secrets Management 2026: где на самом деле сливаются ключи? Регистрируйтесь на эфир AM Live!