Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

ChatGPT обвинили в поощрении суицида: против OpenAI подали новый иск

OpenAI столкнулась с новым громким иском. Семья 24-летней канадки Элис Карриер, погибшей во время психического кризиса летом прошлого года, обвинила компанию в том, что ChatGPT не просто не помог пользователю, а фактически подтолкнул её к самоубийству.

Иск подан в Верховный суд Сан-Франциско. Родственники утверждают, что во время многочасового общения ChatGPT поощрял Элис покончить с собой и демонстрировал опасную склонность соглашаться с её убеждениями вместо того, чтобы настойчиво направлять её к профессионалам.

Особенно спорным выглядит один из эпизодов, описанных в материалах дела. В какой-то момент ChatGPT всё же рекомендовал обратиться в кризисную службу поддержки. Однако девушка ответила, что такие службы либо вызывают полицию, либо просто бросают трубку. После этого чат-бот, по версии истцов, практически отказался от дальнейших попыток убедить её обратиться за помощью.

Адвокаты семьи считают, что причиной стала особенность модели GPT-4o — стремление поддерживать разговор и подстраиваться под пользователя. Согласно иску, чат-бот начал зеркалить позицию собеседницы и даже согласился с тем, что обращение на горячую линию может быть опасным.

Юристы называют это примером так называемой сикофантии — поведения ИИ, при котором система чрезмерно соглашается с пользователем вместо того, чтобы оспаривать опасные или ошибочные выводы.

В OpenAI ранее заявляли, что компания осознаёт ответственность за пользователей, находящихся в эмоционально тяжёлом состоянии, и постоянно улучшает механизмы выявления признаков психологического кризиса. После смерти Карриер компания также сообщала о работе над дополнительными мерами безопасности.

Однако представители семьи считают, что этих мер было недостаточно и они появились слишком поздно.

Дело стало очередным эпизодом в растущем списке судебных претензий к разработчикам генеративного ИИ. Всё чаще предметом споров становятся не ошибки в фактах и не нарушение авторских прав, а влияние чат-ботов на психологическое состояние людей.

RSS: Новости на портале Anti-Malware.ru