Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

WMX представила систему защиты сайтов от «умных ботов»

Российская компания WMX (ООО «Вебмониторэкс») представила новое решение для защиты веб-ресурсов от автоматизированных атак — WMX SmartBot Protection. Продукт рассчитан не только на массовый бот-трафик, но и на более сложных ботов, которые умеют имитировать поведение обычных пользователей.

Проблема здесь вполне прикладная. Значительная часть интернет-трафика сегодня создаётся не людьми, а автоматизированными скриптами.

Такие боты могут собирать данные с сайтов, перебирать пароли, создавать фейковые аккаунты, искать уязвимости и в целом мешать нормальной работе онлайн-сервисов. Особенно чувствительны к этому интернет-магазины, финансовые сервисы, агрегаторы, доски объявлений, медиаплатформы и стриминговые площадки.

При этом боты становятся всё менее примитивными. Если раньше их можно было сравнительно легко отсечь по шаблонному поведению, то теперь они нередко умеют маскироваться под живого пользователя: заходят через браузер, имитируют движение мыши и даже проходят простые CAPTCHA. Из-за этого стандартных фильтров уже часто недостаточно.

В WMX говорят, что их система использует несколько уровней проверки. Сначала трафик фильтруется по базовым признакам — например, по IP-адресам и User-Agent. Если этого недостаточно, дальше подключается анализ браузерного окружения: параметров экрана, шрифтов, а также особенностей canvas и WebGL, которые могут указывать на эмуляторы или headless-браузеры.

Следующий этап — поведенческий анализ. Система смотрит, как именно ведёт себя пользователь: есть ли движения мыши, насколько быстро заполняются формы и не выглядят ли действия слишком механическими. После этого подключаются эвристики, которые оценивают уже не отдельные признаки, а их сочетание. Например, если кто-то кликает строго по центру кнопок через одинаковые интервалы времени, это может выглядеть подозрительно, даже если по отдельности такие действия не кажутся аномальными.

При необходимости могут использоваться и дополнительные проверки, включая CAPTCHA.

Новое решение работает в связке с WMX ПроWAF, веб-экраном компании. Логика здесь довольно понятная: антибот-система должна отсеивать автоматизированный трафик, а WAF — уже защищать приложение от попыток эксплуатации уязвимостей вроде SQL-инъекций, XSS или RCE. Заодно это снижает нагрузку на инфраструктуру, потому что до основного контура доходит уже более «чистый» трафик.

В компании также сообщили, что в будущих версиях собираются добавить систему скоринга угроз и механизмы, связанные с ML, для автоматического формирования новых эвристик.

RSS: Новости на портале Anti-Malware.ru