Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

34% тестировщиков применяют ИИ для генерации кода, 28% — для тест-кейсов

2ГИС решила разобраться, как себя чувствует русскоязычное QA-сообщество: чем пользуются тестировщики, как устроены процессы и как в работу проникает искусственный интеллект. В исследовании поучаствовали 570 QA-специалистов, почти половина из них работают в крупных компаниях.

57% опрошенных сказали, что подключаются к разработке фич ещё на этапе обсуждения требований — то есть задолго до появления кода.

Лишь 20% приходят в проект только после завершения разработки. А вариант «подключаюсь, когда в продакшене что-то сломалось» — уже почти экзотика.

89% команд используют автотесты — от юнитов до UI. Но вот инструменты вокруг них, вроде поддержки, аналитики и стабильности, применяют далеко не все. Например, код-ревью автотестов делают только 39% опрошенных, а 28% команд вообще не отслеживают никаких метрик и работают «вслепую».

ИИ используют не все, и в основном — для рутинных задач

Хотя ИИ уже прочно вошёл в мир тестирования, чаще всего его применяют для типовых задач:

  • написание тестового кода (34%),
  • генерация тест-кейсов (28%),
  • и тестовых данных (26%).

 

Более продвинутые сценарии вроде анализа тестов, автоматического поиска багов и визуального тестирования пока используются редко. Например, только 5% автоматизируют дефект-дискавери, и лишь 4% пробуют AI для визуальных проверок. А 22% QA-специалистов вообще не используют ИИ в своей работе.

Главные проблемы в тестировании

На первом месте — сжатые сроки. Об этом сказали 71% участников опроса. На втором — слабое вовлечение QA в процессы (40%) и нехватка квалифицированных специалистов (37%).

Как измеряют качество

  • Главная метрика — количество найденных багов (58%).
  • Покрытие автотестами учитывают 43%, покрытие кода — только 23%.
  • Стабильность тестов (например, чтобы они не «флапали») отслеживают всего 15% команд.

Что будет с профессией дальше? Мнения разделились:

  • 37% считают, что всё уйдёт в тотальную автоматизацию;
  • 35% уверены, что ничего особо не поменяется;
  • почти треть верит, что QA станет глубже интегрироваться в специфические направления вроде ИБ и производительности;
  • 27% видят будущее за DevOps и SRE — то есть тесной работой на всех этапах: от разработки до эксплуатации.
AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru