Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Security Vision вывела на рынок EDR-систему с корреляцией на агенте

Security Vision представила новый продукт для защиты конечных точек — Security Vision EDR. Решение относится к классу Endpoint Detection and Response и предназначено для выявления, анализа и пресечения угроз на рабочих станциях и серверах под управлением Windows и Linux.

Главная особенность новинки — корреляция событий прямо на уровне агента, то есть непосредственно на конечной точке.

Такой подход позволяет фиксировать подозрительную активность и реагировать на неё без постоянной зависимости от центральной инфраструктуры. Проще говоря, часть логики срабатывает на месте, а не после отправки данных куда-то наверх.

В продукт встроены механизмы автоматической блокировки вредоносной активности. При этом предусмотрены и инструменты ручного реагирования, чтобы оператор мог отдельно вмешаться в инцидент и выполнить точечные действия там, где автоматического сценария недостаточно.

В составе Security Vision EDR заявлено более 800 преднастроенных правил корреляции, охватывающих типовые техники атак. Для настройки и доработки правил предусмотрен No-Code редактор — он позволяет адаптировать логику детектирования под конкретную инфраструктуру без программирования.

Отдельно в решении сделан акцент на настройке сенсоров и собираемой телеметрии. Это должно помочь компаниям балансировать между глубиной мониторинга и нагрузкой на систему, что для EDR-сегмента вопрос вполне практический, а не декоративный.

Ещё один важный блок — управление агентской инфраструктурой. В системе есть функции централизованного развёртывания агентов, контроля их доступности и оценки стабильности работы. Эти данные выводятся на дашборды и в отчёты, чтобы было проще следить за покрытием и состоянием всей агентской сети.

Кроме того, в продукт встроен модуль управления активами. Он позволяет сканировать инфраструктуру, инвентаризировать хосты и сервисы, формировать группы активов и классифицировать их по ролям и критичности. Для аналитиков это даёт дополнительный контекст при расследовании: можно быстрее понять, насколько важен затронутый актив и какое место он занимает в инфраструктуре.

Компания также сообщила, что продукт внесён в реестр российского ПО и имеет ряд сертификатов и заключений, включая документы ФСТЭК, ФСБ, Минобороны России и ОАЦ при Президенте Республики Беларусь.

RSS: Новости на портале Anti-Malware.ru