Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Мошенники начали атаковать абитуриентов, поступающих на платные отделения

Мошенники начали активно использовать сезон поступления в вузы, предлагая абитуриентам, претендующим на платные места, заранее внести оплату за обучение. Под предлогом «гарантированного поступления» злоумышленники выманивают деньги у поступающих, вводя их в заблуждение и обещая помощь в зачислении.

О появлении такой схемы сообщили эксперты, опрошенные «Известиями». Главный эксперт Московского антикоррупционного комитета, доцент кафедры политического анализа и социально-психологических процессов РЭУ им. Г. В. Плеханова Александр Перенджиев связал эту активность с сокращением числа платных мест во многих вузах и ростом конкуренции среди абитуриентов.

Существование подобной схемы подтвердили изданию основатель сервиса разведки утечек данных и мониторинга даркнета DLBI Ашот Оганесян и эксперт проекта «За права заемщиков» и платформы «Мошеловка» Александра Пожарская. Она отметила, что мошенники давно используют схожие схемы, включая продажу дипломов, сертификатов и «услуг» по гарантированному поступлению. Также применяются различные методы социальной инженерии, в том числе фишинг и телефонные звонки с целью сбора личных данных.

По словам Пожарской, злоумышленники могут даже показывать поддельные приказы о зачислении или предлагать внести плату за якобы дополнительный набор. Такая практика используется и при «продаже» бюджетных мест.

В свою очередь, Александр Перенджиев напомнил, что оплата обучения осуществляется исключительно после подписания официального договора и только по реквизитам, указанным на сайте университета. Это — необходимое условие для возврата средств в случае расторжения договора.

«Все решения в вузах принимаются открыто, а любые попытки «ускорить процесс» за деньги — это обман», — подчеркнула Александра Пожарская.

Как отметил Ашот Оганесян, чаще всего жертвами мошенников становятся абитуриенты тех вузов, где списки поступающих публикуются с открытыми ФИО. Там, где используются обезличенные идентификаторы, злоумышленникам сложнее получить доступ к данным, и активность снижается.

Тем не менее, как предупредил руководитель направления по детской онлайн-безопасности в «Лаборатории Касперского» Андрей Сиденко, в зоне риска остаются и уже зачисленные студенты. Под видом сотрудников деканата или бухгалтерии злоумышленники могут требовать оплату «дополнительных сборов» или приглашать в фейковые группы в мессенджерах.

Чтобы избежать обмана, эксперты рекомендуют всегда сверять информацию на официальных сайтах вузов — особенно когда речь идёт о платежных реквизитах и сроках оплаты.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru