Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

История файлов в Windows сообщает об отключённом диске и срывает бэкапы

Microsoft подтвердила проблему с Историей файлов в Windows 10 и Windows 11. Пользователи начали жаловаться, что система упорно показывает предупреждение «Подключите диск "Истории файлов" повторно», даже когда диск для резервного копирования на месте и никуда не отключался. На этом фоне резервные копии у части пользователей просто перестают выполняться.

Судя по описанию Microsoft, Windows в какой-то момент ошибочно решает, что накопитель с File History был отключён слишком надолго.

Причём это касается не только обычных внешних USB-дисков, но и сетевых каталогов, используемых для бэкапов. В результате система может остановить резервное копирование, а пользователю останется только однотипное предупреждение без понятного объяснения, что именно пошло не так.

Хорошая новость в том, что речь не идёт о повреждении уже созданных копий или удалении файлов. Проблема скорее в надёжности процесса: если пользователь уверен, что История файлов продолжает работать как обычно, а на самом деле копирование уже остановилось, это легко может выясниться в самый неприятный момент.

Microsoft дала совет: если резервная копия хранится на внешнем диске, нужно убедиться, что он действительно подключён, а затем дождаться следующего запланированного бэкапа или запустить его вручную через Историю файлов.

Если же используется сетевое расположение, его рекомендуют заново выбрать в настройках Истории файлов и после этого тоже вручную инициировать резервное копирование.

RSS: Новости на портале Anti-Malware.ru