Атака BEAST за минуту заставит большую языковую модель забыть об этике

Татьяна Никитина 29 Февраля 2024 - 15:53

...

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Следующая главная новость »

Резервные копии не работают? Расскажем в эфире AM Live, как делать по уму. Регистрируйтесь! »

Екатерина Быстрова 12 Февраля 2026 - 18:55

GenAI (генеративный искусственный интеллект)Соответствие законодательству РФ Общее

Путин поручил запустить пилот по обучению ИИ и информационной безопасности

Владимир Путин поручил запустить в Московской области пилотный проект по обучению технологиям искусственного интеллекта и информационной безопасности. Соответствующие поручения опубликованы на сайте Кремля по итогам заседания Госсовета.

Проект правительство должно реализовать совместно с властями региона. Доклад о его запуске президент ожидает до 1 июля — его представят премьер-министр Михаил Мишустин и губернатор Подмосковья Андрей Воробьёв.

Кроме того, к 15 июля поручено включить компетенции в сфере ИИ в образовательные и профессиональные стандарты. Речь идёт о том, чтобы навыки работы с искусственным интеллектом стали частью формальной системы подготовки специалистов.

Отдельно поставлена задача организовать программы повышения квалификации для преподавателей и учителей по направлениям ИТ и ИИ — с участием технологических компаний.

Тема развития искусственного интеллекта ранее уже звучала на федеральном уровне. В ноябре, выступая на конференции AI Journey-2025, президент заявил о необходимости создать штаб по управлению отраслью ИИ и поручил правительству совместно с регионами сформировать национальный план внедрения генеративного ИИ.

Тогда Владимир Путин подчеркнул, что зависимость от иностранных нейросетей недопустима, поскольку речь идёт о технологическом суверенитете страны. Новые поручения, судя по всему, становятся практическим шагом в этом направлении.

Анастасия Федорова, руководитель образовательных программ Positive Education, поделилась с Anti-Malware.ru своим комментарием:

«Поручение о запуске пилотного проекта по обучению ИИ и кибербезопасности — сигнал о приоритете повышения безопасности в цифровой среде. Это поможет интегрировать ключевые компетенции в образование и сформировать культуру кибербезопасности на всех уровнях.

Внимание к вопросу кибербезопасности на самом высшем уровне говорит о том, что киберугрозы воспринимаются как серьезная проблема, решение которой — межотраслевая задача.

Аналитики Positive Technologies в 2026 году прогнозируют рост успешных атак на компании и частных лиц на 30–35% по сравнению с 2025 годом. Важно понимать, что сегодня личный и корпоративный кибербез неразделимы — часть атак на бизнес начинается с компрометации устройств или аккаунтов сотрудников в личном пространстве. Поэтому обучение должно фокусироваться на реальных повседневных сценариях, где ошибка одного человека может запустить цепную реакцию до уровня компании. В Positive Education мы активно развиваем именно такие корпоративные программы».

Резервные копии не работают? Расскажем в эфире AM Live, как делать по уму. Регистрируйтесь! »