Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

ГК Солар фиксирует волну атак на сайты малого и среднего бизнеса

В преддверии летнего сезона специалисты сервиса Solar Space (ГК «Солар») фиксируют резкий рост кибератак на сайты санаториев, гостиниц, пансионатов, небольших туроператоров, а также фитнес-клубов и сервисов аренды свадебного декора.

Как отмечают в ГК «Солар», это отражает общую тенденцию увеличения количества атак на веб-ресурсы малого и среднего бизнеса. За ними могут стоять как политически мотивированные хактивисты, так и недобросовестные конкуренты.

С технической точки зрения атаки делятся на два основных типа. Первый — классические DDoS-атаки, цель которых — сделать сайт недоступным для пользователей. Второй — атаки с использованием ботов, создающих фиктивные бронирования и мешающих настоящим клиентам воспользоваться услугами.

Эксперты рекомендуют бизнесу как минимум обеспечить базовую защиту от DDoS и автоматизированной вредоносной активности. Также необходимо организовать постоянный мониторинг, чтобы своевременно оценивать нагрузку на сайт и оперативно реагировать на инциденты.

«Подобные атаки направлены как на нанесение ущерба пользователям, которые могут остаться без нужных услуг, так и на подрыв деятельности самих компаний, теряющих потенциальную прибыль. При этом злоумышленниками могут быть как идеологически мотивированные группы, так и хакеры, действующие по заказу конкурентов», — комментирует Артём Избаенков, директор платформы облачной киберзащиты Solar Space ГК «Солар».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru