Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

В Windows нашли способ получать Insider-сборки без аккаунта Microsoft

Пока Microsoft всё сильнее привязывает пользователей Windows к своей экосистеме, энтузиасты продолжают искать обходные пути. На этот раз обновление получил инструмент OfflineInsiderEnroll, который позволяет устанавливать предварительные сборки Windows без входа в учётную запись Microsoft.

Обычно для участия в программе Windows Insider требуется зарегистрироваться через аккаунт Microsoft и официально подключить устройство к одному из тестовых каналов. Но OfflineInsiderEnroll предлагает альтернативный сценарий.

Утилита представляет собой небольшой скрипт, который настраивает необходимые параметры локально через системный реестр. После этого компьютер получает доступ к тестовым версиям Windows через обычный механизм Windows Update, как будто устройство официально участвует в программе предварительного тестирования.

В основе схемы лежит параметр реестра TestFlags. Если установить для него значение 0x20, Windows перестаёт обращаться к онлайн-сервисам регистрации Insider Program.

Благодаря этому локальные настройки больше не перезаписываются серверами Microsoft, а выбранный канал тестирования сохраняется на устройстве.

 

Проще говоря, система начинает верить настройкам, которые ей подсовывает сам скрипт.

Ранее OfflineInsiderEnroll уже поддерживал классические каналы Dev, Beta и Release Preview. Теперь разработчики обновили утилиту до версии 2.6.6 и добавили поддержку новой структуры каналов Windows Insider, которую Microsoft недавно начала внедрять.

Помимо Beta и Release Preview пользователи получили доступ к новым экспериментальным каналам тестирования. Также в комплекте остались инструменты для очистки кеша Insider, сброса настроек и полного отключения участия в программе.

Впрочем, запускать скрипт придётся с правами администратора.

RSS: Новости на портале Anti-Malware.ru