Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Уязвимость в iPhone позволяет украсть до $10 000 через NFC

На YouTube-канале Veritasium вышло видео о редкой, но любопытной уязвимости в iPhone. Речь идёт о сценарии, при котором злоумышленник теоретически может провести NFC-платёж даже с заблокированного смартфона и списать до $10 000. Рядовым пользователям вряд ли стоит переживать, так как на практике для атаки нужен слишком уж специфический набор условий.

Саму проблему ещё в 2021 году обнаружили специалисты Иоана Буряну и Том Чотия.

Они показали, что iPhone можно обмануть и заставить принять фальшивый POS за настоящий терминал общественного транспорта. Это связано с функцией Express Transit, которая позволяет оплачивать проезд без разблокировки устройства.

Как объясняется в видео Veritasium, исследователи нашли способ обойти ещё несколько защитных механизмов Apple, чтобы в итоге инициировать перевод средств. В демонстрации речь идёт о сумме до $10 000.

Впрочем, у атаки есть серьёзные ограничения. Во-первых, она работает только в том случае, если в качестве карты для Express Transit на iPhone выбрана Visa. На Mastercard и другие платёжные системы этот сценарий не распространяется. Во-вторых, сама эксплуатация требует очень специфических условий и, по сути, лабораторной точности.

Apple сообщила Veritasium, что проблема связана с особенностями со стороны Visa. В Visa, в свою очередь, заявили, что держатели карт защищены политикой нулевой ответственности, так что в случае успешной атаки возможный ущерб должен быть компенсирован.

При этом компания подчеркнула, что подобный сценарий «крайне маловероятен» в реальной жизни, даже если в контролируемой среде он реально сработал.

RSS: Новости на портале Anti-Malware.ru