Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Атака через видеопамять: Rowhammer на GPU Nvidia даёт root-доступ на хосте

Исследователи показали новый вектор атаки на мощные GPU от Nvidia: бреши класса Rowhammer теперь могут использоваться не только против обычной оперативной памяти, но и против видеопамяти GDDR6. В некоторых сценариях атакующий может добраться до памяти хост-машины и получить root-доступ к системе.

Напомним, Rowhammer — это класс атак, при котором многократные обращения к определённым участкам памяти вызывают битовые сбои в соседних ячейках.

Долгое время такие атаки в основном ассоциировались с CPU и DRAM, но теперь две независимые исследовательские группы показали (PDF), что похожая логика работает и с GPU-памятью Nvidia поколения Ampere. В центре внимания оказались две техники — GDDRHammer и GeForge.

Первая атака, GDDRHammer, была продемонстрирована против Nvidia RTX 6000 на архитектуре Ampere. Исследователи утверждают, что смогли многократно повысить число битовых сбоев по сравнению с более ранней работой GPUHammer 2025 года и добиться возможности читать и изменять GPU-память, а затем использовать это для доступа к памяти CPU.

Вторая техника, GeForge сработала против RTX 3060 и RTX 6000 и завершалась получением root на Linux-хосте.

 

Ключевой момент здесь в том, что атака становится особенно опасной, если IOMMU отключён, а это, как отмечают исследователи, во многих системах остаётся настройкой по умолчанию ради совместимости и производительности.

При включённом IOMMU такой сценарий существенно осложняется, потому что он ограничивает доступ GPU к чувствительным областям памяти хоста. В качестве ещё одной меры снижения риска исследователи и Nvidia указывают ECC, хотя и он не считается универсальной защитой от всех вариантов Rowhammer.

На сегодня  подтверждённая уязвимость касается прежде всего Ampere-карт RTX 3060 и RTX 6000 с GDDR6, а более ранняя работа GPUHammer фокусировалась на NVIDIA A6000.

 

Для более новых поколений, вроде Ada, в этом материале рабочая эксплуатация не показана. Кроме того, исследователи прямо отмечают, что случаев реального использования это вектора в реальных кибератаках пока не известно.

RSS: Новости на портале Anti-Malware.ru