Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

ИИ находит ошибки быстрее, чем их могут исправлять

Многие команды разработчиков опенсорс-проектов столкнулись с потоком сообщений об ошибках и уязвимостях, которые выявляют ИИ-модели. Для многих проектов, особенно небольших, это стало серьёзной проблемой: устранять такие находки по мере их поступления они попросту не успевают. В результате ситуация начинает нести заметные риски для безопасности.

О проблеме сообщило агентство Bloomberg. Издание приводит слова Дэниела Стенберга из проекта cURL: только за 2025 год команда получила 181 сообщение об ошибках и уязвимостях — больше, чем за 2023 и 2024 годы вместе взятые.

По словам специалиста, рост числа багрепортов напрямую связан с распространением ИИ-моделей. Как отметил Стенберг, ситуация продолжает ухудшаться. С начала 2026 года команда проекта уже получила 87 сообщений об ошибках, а по итогам года их число может приблизиться к 330.

Рост активности связывают с появлением новой ИИ-модели Mythos от Anthropic. Она позволяет находить проблемный код быстрее, чем предыдущие поколения таких систем, не говоря уже о людях, которые проводят аудит вручную или с помощью традиционных инструментов.

Многие другие проекты, столкнувшись с валом отчётов об ошибках, сгенерированных с помощью ИИ, вообще прекратили их приём. Разработчики сравнивают этот поток с DDoS-атакой, называя его «пугающим» и крайне сложным для обработки.

Понимая возможные риски, связанные с тем, что новая модель сможет находить уязвимости быстрее, чем разработчики будут успевать их устранять, Anthropic не стала выпускать Mythos в открытый доступ. Вместо этого компания ограничила доступ к ней, предоставив его только ключевым организациям, включая CrowdStrike и Linux Foundation.

Как подчёркивает Bloomberg, вся индустрия во многом зависит от результатов работы проектов с открытым исходным кодом, которыми нередко занимаются небольшие команды с ограниченными ресурсами. Ситуацию дополнительно осложняет наличие большого объёма устаревшего кода, который может быть использован во вредоносных целях.

Показательный пример — история с WannaCry: авторы этого шифровальщика использовали устаревший драйвер Windows для распространения зловреда. При этом удалить такой компонент не всегда возможно без риска нарушить работу критически важных функций системы.

RSS: Новости на портале Anti-Malware.ru