Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Фильтры AdBlock выдают страну даже при включённом VPN

Исследователи описали новую технику деанонимизации под названием Adbleed, которая ставит под сомнение привычное ощущение безопасности у пользователей VPN. Проблема кроется в блокировщиках рекламы. Такие расширения, как uBlock Origin, Brave или AdBlock Plus, работают на основе списков фильтров.

Есть базовый список EasyList с десятками тысяч правил для международной рекламы, а есть региональные — для Германии, Франции, России, Бразилии, Японии и других стран.

Они блокируют локальные рекламные домены, и многие пользователи включают их вручную или по рекомендации самого расширения, ориентируясь на язык браузера.

 

Adbleed использует довольно изящную идею: он измеряет время, за которое браузер обрабатывает запрос к определённому домену. Если домен заблокирован фильтром, запрос обрывается почти мгновенно — за считаные миллисекунды.

 

Если не заблокирован, браузер пытается установить сетевое соединение, и даже при ошибке это занимает в разы больше времени. Небольшой JavaScript-скрипт может проверить несколько десятков доменов, характерных для конкретного регионального списка, и по скорости отклика понять, активирован он или нет. Всё это происходит на стороне клиента без cookies, без всплывающих разрешений и без каких-то сложных эксплойтов.

В итоге атакующий может выяснить, какие национальные фильтры включены в вашем браузере. А это почти всегда коррелирует со страной проживания или хотя бы с родным языком пользователя.

Если добавить к этому часовой пояс, параметры экрана и другие элементы цифрового отпечатка, анонимность заметно сужается, даже если вы сидите через VPN или прокси.

Самое неприятное в этой истории то, что VPN тут ни при чём: он меняет сетевую «точку выхода», но не конфигурацию браузера. Ваши фильтры остаются прежними, где бы ни находился сервер.

Пользователю остаётся не самый приятный выбор: отключать региональные списки и мириться с дополнительной рекламой, пытаться «зашумить» профиль случайными фильтрами или принимать риск как есть.

RSS: Новости на портале Anti-Malware.ru