Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

CURATOR добавил сканер уязвимостей прямо в личный кабинет платформы

Провайдер облачной сетевой инфраструктуры и решений для защиты интернет-ресурсов CURATOR представил новый инструмент CURATOR.SCANNER. Решение предназначено для регулярной проверки внешней инфраструктуры компаний на уязвимости, ошибки конфигурации и потенциальные точки входа для атак.

Продукт разработан в рамках технологического сотрудничества с ИБ-компанией Alpha Systems и встроен прямо в личный кабинет платформы CURATOR. Отдельно устанавливать дополнительное ПО не нужно.

Работает всё довольно просто: пользователь указывает объект проверки — домен, IP-адрес, диапазон адресов или веб-приложение — выбирает шаблон сканирования и запускает проверку из интерфейса платформы.

CURATOR.SCANNER умеет выявлять открытые сетевые сервисы, определять версии установленного ПО, сопоставлять их с базами известных уязвимостей, находить ошибки конфигурации и распространенные веб-риски. Среди поддерживаемых проверок — активное сканирование, обнаружение веб-компонентов, анализ веб-приложений и поиск уязвимостей вроде SQL Injection.

Также инструмент может определять наличие WAF и учитывать особенности его работы при проверке веб-приложений. Это важно, потому что сканирование защищенного ресурса без понимания работы фильтров часто дает неполную или искаженную картину.

В CURATOR отмечают, что многие успешные атаки начинаются с эксплуатации конкретной уязвимости на внешнем периметре. При этом компании либо проверяют его нерегулярно, либо используют отдельные инструменты, которые требуют внедрения, настройки и сопровождения.

С запуском CURATOR.SCANNER клиенты платформы получают возможность проверять внешний периметр в том же контуре, где уже управляют защитой доступности, DDoS-фильтрацией и безопасностью веб-ресурсов.

По сути, CURATOR пытается собрать в одном интерфейсе не только защиту от атак, но и регулярный поиск слабых мест до того, как ими заинтересуются злоумышленники.

RSS: Новости на портале Anti-Malware.ru