Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

95% компаний назвали контроль доступа главной функцией защиты контейнеров

95% компаний считают управление правами доступа важнейшей функцией безопасности контейнерных сред. Такие результаты показал опрос среди зрителей и участников эфира AM Live «Безопасность контейнерных сред: что реально работает в 2026 году».

Именно контроль доступа оказался наиболее востребованной функцией среди всех механизмов защиты. Его назвали важным 95% участников опроса — заметно больше, чем любые другие инструменты.

На втором месте оказалось управление секретами с 78%, а далее — управление уязвимостями и контроль целостности, которые набрали по 65%.

Такая расстановка приоритетов показывает, что для большинства компаний главной задачей в области безопасности контейнерных сред остаётся контроль того, кто и какие действия может выполнять в инфраструктуре. В динамичных средах, где сервисы и контейнеры постоянно создаются и удаляются, ошибки в управлении доступом могут быстро привести к серьёзным инцидентам.

При этом другие функции, связанные с наблюдением за поведением системы, оказались менее востребованными. Так, мониторинг runtime назвали важным только 35% респондентов, а контроль сетевого трафика — 31%. Это может говорить о том, что многие компании пока сосредоточены на базовых механизмах защиты и управлении доступом, тогда как более сложные инструменты поведенческого анализа внедряются позже.

В целом эксперты назвали такие результаты ожидаемыми, однако их удивило, что к контролю трафика прибегают менее трети компаний. Среди возможных причин они назвали сложность и высокую стоимость внедрения. Кроме того, было отмечено, что в некоторых случаях кластер Kubernetes размещается в закрытом контуре, из-за чего необходимость в отдельном мониторинге трафика снижается.

Интересно, что подход к безопасности во многом зависит и от того, какие платформы используют компании для контейнеризации. Почти половина участников опроса, 47%, сообщили, что дорабатывают контейнерные технологии на базе open-source решений. Ещё 35% используют «ванильные» инструменты контейнеризации без серьёзных модификаций, а 31% применяют российские коммерческие платформы.

Менеджер продукта Deckhouse Kubernetes Platform по направлению информационной безопасности во «Флант» Алексей Крылов отметил, что многие компании, вероятнее всего, используют гибридные варианты, переезжают с западных систем и пока находятся на этапе оптимизации своих платформ.

Кроме того, глава DevOps-департамента Luntry Станислав Проснеков указал, что в «ванильных» системах не хватает средств управления учётными записями. Из-за этого многим компаниям может быть сложно с ними работать, в том числе из-за недостаточной прозрачности таких решений.

Опрос также показал тенденцию к комбинированию инструментов защиты. 48% компаний используют встроенные механизмы безопасности платформ вместе с дополнительными open-source средствами. Ещё 29% сочетают встроенные функции коммерческих платформ с дополнительными инструментами.

RSS: Новости на портале Anti-Malware.ru