Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Windows 11 получит разрешения для приложений как в Android

Microsoft планирует серьёзно пересмотреть модель безопасности в Windows 11. Компания хочет сделать систему «безопасной по умолчанию», для чего готовит два больших изменения: режим Baseline Security Mode и новую модель разрешений для приложений, напоминающую Android и iOS.

Если коротко, Windows станет строже к тому, что именно может запускаться на компьютере и к каким данным получают доступ программы.

Но при этом полностью закрывать платформу Microsoft не собирается, возможность установить «что угодно» останется, просто теперь это будет более осознанный выбор.

Самое заметное изменение — Baseline Security Mode. В этом режиме Windows 11 будет по умолчанию запускать только корректно подписанные приложения, сервисы и драйверы. Система станет проверять цифровую подпись и целостность ПО во время выполнения. Если программа не соответствует требованиям, она просто не запустится, если только пользователь явно не разрешит это.

Новый режим объединяет в себе идеи Smart App Control, WDAC, HVCI и других механизмов, которые раньше либо были отключены по умолчанию, либо работали только на отдельных устройствах. Теперь это хотят сделать частью базового поведения системы.

При этом Microsoft подчёркивает: исключения будут возможны. Если вы используете старые программы, собственные утилиты или неподписанные драйверы, их можно будет разрешить вручную. Для ИТ-администраторов предусмотрены механизмы настройки исключений.

Второе важное изменение — новая система прозрачности и согласия (User Transparency and Consent). Windows постепенно переходит к модели, где приложения будут запрашивать доступ к конфиденциальным компонентам — файлам, камере, микрофону, установке компонентов — через понятные системные запросы. Почти как на Android или iOS.

Сейчас система разрешений в Windows разбросана между настройками, старой Панелью управления, реестром и внутренними опциями самих программ. Большинство пользователей толком не понимают, к чему именно дали доступ. В новой модели все разрешения можно будет централизованно просматривать, менять и отзывать.

Microsoft отдельно отмечает, что такие запросы будут обратимыми — если вы передумали, доступ можно будет отключить позже.

RSS: Новости на портале Anti-Malware.ru