Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Магнит и Avanpost внедрили систему для управления сертификатами ЭП

Розничная сеть «Магнит» совместно с Avanpost завершила проект по внедрению централизованной системы управления сертификатами электронной подписи и средствами криптографической защиты. Решение позволяет автоматизировать выпуск, продление и перевыпуск сертификатов, которые используются, в частности, для работы с ЕГАИС в торговых точках.

По данным компаний, система охватывает более 20 тысяч объектов сети на территории европейской части России и помогает снизить риски простоев при учёте и продаже алкоголя.

Под управление платформы было взято около 30 тысяч средств защиты информации, а агенты системы развернули на более чем 20 тысяч рабочих мест.

Проект предусматривает централизованное управление электронными подписями, контроль операций с ними и аудит действий сотрудников. Система также отслеживает сроки действия сертификатов и автоматически запускает процессы продления или массового перевыпуска — при необходимости до тысячи сертификатов в сутки.

Сотрудники «Магнита» получили личный кабинет, где можно дистанционно проверять статус сертификата, обновлять его или отзывать без посещения удостоверяющего центра. Возможность удалённой работы с документами реализована с учётом требований российского законодательства.

В рамках проекта Avanpost PKI интегрировали с основными корпоративными системами, включая 1С, Active Directory, КриптоПро, СМЭВ, HR MDM, а также с SIEM- и SOAR-платформами для мониторинга событий безопасности.

Срок реализации проекта — 2024-2025 годы.

Мария Дордий, руководитель отдела СКЗИ в «Магните», так описывает результаты:

«Проект по автоматизации выпуска электронных подписей в нашей розничной сети был направлен на повышение контроля, прозрачности и безопасности операций с ЭП и СКЗИ. Благодаря внедрению системы Avanpost PKI мы решили важнейшие задачи: централизовали управление СЗИ, СКЗИ и сертификатами и сократили время получения электронной подписи для наших сотрудников. Мы реализовали автоматизированные процессы одиночного и массового перевыпуска сертификатов, что критически важно для нашей масштабной сети с учетом разницы часовых поясов РФ и позволяет системе перевыпускать 1000 и более сертификатов в день. Снижение времени на получение и оперативный перевыпуск ЭП нивелирует риски простоя касс и продаж на торговых объектах. Кроме того, сотрудники получили удобный личный кабинет, позволяющий дистанционно контролировать сроки действия и обновлять сертификат. Создание гибкой ролевой модели доступа, формирование бизнес-процессов согласования, ведение журналов событий и аудит инцидентов ИБ позволили нам соблюсти требования регуляторов и контролировать нелегитимные операции, значительно повысив информационную безопасность».

Евгений Галкин, директор продуктовых направлений кибербезопасности и криптографии Avanpost, отметил:

«Автоматизация управления сертификатами для 20000 торговых объектов „Магнит“ — это по-настоящему масштабный и, что важно, уникальный для России проект. Совместно с коллегами из "Магнита" нам удалось создать централизованную систему, способную управлять сертификатами, обеспечивая их выпуск, установку на устройстве клиента с агентом Avanpost PKI, аннулирование, обновление по истечению срока и массовый перевыпуск. Мы гордимся, что построили такую систему на федеральном масштабе и фактически устранили риск остановки продаж алкоголя из-за просроченных сертификатов. В таком объеме и с такой степенью автоматизации наше решение является эксклюзивным на рынке, что подтверждает наше технологическое лидерство в сфере ретейла».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru