Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Не удаляйте SecureBoot: зачем Windows 11 создала новую папку в C:\Windows

Пользователи Windows 11 после установки майского обновления KB5089549 находят в C:\Windows новую папку SecureBoot. Выглядит подозрительно: вчера её не было, сегодня она есть, внутри какие-то PowerShell-скрипты. Неудивительно, что ряд юзер начал паниковать.

Но в этот раз всё не так драматично. Microsoft объяснила, что папка появилась не из-за бага, а в рамках обновления сертификатов Secure Boot. В июне 2026 года старые сертификаты Secure Boot, выпущенные в 2011 году или раньше, начнут истекать, поэтому их нужно заменить на новые сертификаты 2023 года.

Secure Boot — это механизм UEFI, который не даёт неподписанному и потенциально опасному коду загружаться ещё до старта Windows. Для Windows 11 Secure Boot является одним из обязательных требований.

Новая директория SecureBoot нужна для более мягкого переезда на свежие сертификаты. По данным Microsoft, она содержит скрипты для ИТ-администраторов, управляющих обновлениями на парке устройств. Один скрипт проверяет, установлены ли новые сертификаты, другой помогает убедиться, что системная задача обновления Secure Boot включена. Сами по себе эти файлы ничего на компьютере не меняют.

Самое смешное, что каталог получили не только корпоративные машины, где такие скрипты действительно могут пригодиться, но и обычные домашние десктопы.

Удалять папку не нужно. Ничего полезного от этого не будет, а будущие обновления Windows могут на неё рассчитывать. Лучше оставить всё как есть и дать системе самой разобраться с ротацией сертификатов.

RSS: Новости на портале Anti-Malware.ru