Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Мошенники крадут товары, выдавая себя за ПСК и Ozon

Злоумышленники под видом известных компаний совершили серию крупных краж, оформив закупки с помощью поддельных документов и используя подмену номеров телефонов. Аферисты выдавали себя за представителей легитимных организаций, предъявляли доверенности и добивались отгрузки товара. Используемые ими документы были высокого качества и не вызывали подозрений даже у опытных сотрудников.

Как сообщила «Фонтанка», мошенники оформили несколько крупных заказов от имени Петербургской сбытовой компании (ПСК). В частности, под видом сотрудников ПСК были приобретены 130 комплектов автомобильных шин и 20 тонн сливочного масла.

В обоих случаях за товаром приезжал якобы представитель ПСК и предъявлял доверенности на получение груза. Однако позже выяснилось, что ни почта, ни телефон, ни фамилия человека, забиравшего продукцию, не имели отношения к компании.

Номер телефона, с которого связывались аферисты, в приложении Getcontact отображался как принадлежащий ПСК. Поддельные документы были выполнены на высоком уровне: в случае с «покупкой» масла мошенники даже приложили протокол разногласий к договору, где указали неустойки за нарушение условий хранения продукции.

Между тем ещё в апреле на официальном сайте ПСК появилось предупреждение: «Информируем о новой мошеннической схеме. В адрес юридических лиц поступают письма об организации закупок от имени Петербургской сбытовой компании. Письма направляются с подложного почтового адреса: zakaz.pesc-opt.ru с указанием номеров телефонов, не принадлежащих Петербургской сбытовой компании».

ПСК — не единственная пострадавшая организация. Подобные случаи неоднократно фиксировались в отношении Ozon: от его имени злоумышленники вывозили компьютеры, промышленные пылесосы и стройматериалы в разных регионах страны. При этом также использовались поддельные документы и подменённые номера телефонов.

«Мы знаем о ситуации, при которой некие сторонние лица, представляясь компанией Ozon, обращаются к поставщикам с просьбой предоставить самые разные товары, в том числе с постоплатой, — сообщили изданию в пресс-службе маркетплейса. — Часто мошенники используют схожие по написанию домены и формируют письма-запросы на бланках с логотипом Ozon».

По данным «Фонтанки», на момент публикации ни одной из пострадавших компаний не удалось вернуть ни деньги, ни украденный товар.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru