Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

Microsoft все еще не пропатчила уязвимости, показанные на Pwn2Own 2024

Из семи уязвимостей повышения привилегий, выявленных в марте на Pwn2Own, Microsoft устранила только одну, да и то портом заплатки Google для Chrome. Остался месяц до публикации, и появились опасения, что дедлайн Windows встретит непропатченной.

Участники проекта Zero Day Initiative (ZDI), ежегодно проводящие Pwn2Own, обычно дают вендорам 90 дней на выпуск патчей к уязвимостям, продемонстрированным конкурсантами. Показанные в Ванкувере 0-day уже устранили Oracle, Apple, Google, VMware, Mozilla (патчи для Firefox вышли в рекордные сроки, за пару дней).

Все думали, что Microsoft последует их примеру, но разработчик популярной ОС исправил только Edge к апрельскому «вторнику патчей», позаимствовав фикс для Chrome (CVE-2024-3159). Майский набор обновлений для Windows ожиданий не оправдал.

В ходе интервью Dark Reading Дастин Чайлдс (Dustin Childs) из ZDI перечислил все успешно показанные на Pwn2Own 2024 уязвимости в разных компонентах Windows:

  • два бага use-after-free;
  • один TOCTOU (условие гонок типа «время проверки – время использования»);
  • переполнение буфера в куче;
  • ошибка переключения контекста;
  • неадекватная проверка пользовательского ввода;
  • состояние гонки.

Некоторые из них, по словам эксперта, можно использовать напрямую для повышения привилегий (EoP), другие работают только в связке с багом виртуализации, позволяющим выйти за пределы гостевой ОС. Возможности EoP часто используются в атаках и в сочетании с RCE позволяют захватить контроль над системой.

От Microsoft получены подтверждения по всем уязвимостям и заверения, что работа над исправлениями уже начата.

«Панику мы пока не поднимаем, я прекрасно знаю, что такое латание ОС, — отметил представитель ZDI. — Однако Microsoft многократно заявляла, что безопасность у нее в приоритете, и у нее наверняка много хлопот на этом направлении: в прошлом месяце вышел громадный набор обновлений. Я просто боюсь, что новые уязвимости могут сойти с дистанции при таких объемах».

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru