Легко взламываемые модели ИИ показывают, что меры защиты не работают

Вероника Дубровская 21 Мая 2024 - 20:31

...

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ.

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Следующая главная новость »

Digital Risk Protection: что злоумышленники уже знают о вашей компании?
Регистрируйтесь на эфир!

Екатерина Быстрова 03 Июля 2026 - 09:09

Linux Потеря данных Нарушение целостности информации Сбои программ Общее

kernel.org внезапно опустел: на зеркалах случайно удалили архивы ядра Linux

У kernel.org случился редкий инфраструктурный конфуз: из-за ошибки при настройке нового первичного зеркала и изменении системы синхронизации внезапно опустел каталог kernel.org/pub/. Именно там на публичных зеркалах хранились архивы с кодом выпусков ядра Linux, патчи и файлы со списками изменений.

Пользователи, заходившие в каталог, вместо привычного дерева файлов увидели пустоту. Очень философский опыт для мира открытого кода.

В Linux Foundation объяснили, что данные не потеряны: пострадали только копии на публичных зеркалах. Эталонные данные с кодом ядра Linux остались целы. Проблема возникла именно в инфраструктуре зеркалирования, где ошибочная настройка привела к удалению содержимого на существующих зеркалах.

Команда проекта уже занимается восстановлением данных. Но, как метко заметили участники kernel.org, удаление происходит быстро, а восстановление — медленно. Поэтому пользователей попросили набраться терпения.

Инцидент оказался неприятным не только для тех, кто привык скачивать архивы ядра напрямую с kernel.org. Он задел и сторонние проекты. Например, в Fedora сломались браузерные тесты openQA: много лет назад разработчики выбрали kernel.org как надёжный источник для проверки загрузки файлов.

Исходники ядра не исчезли, инфраструктура восстанавливается, а речь идет именно о зеркалах, но инцидент напоминает, что в больших системах даже аккуратная настройка зеркал может обернуться массовым rm -rf по публичным копиям.

Digital Risk Protection: что злоумышленники уже знают о вашей компании?
Регистрируйтесь на эфир!