Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AirSnitch рушит защиту Wi-Fi: перехват трафика возможен даже при шифровании

Исследователи показали новый вектор атак на Wi-Fi под названием AirSnitch. По их словам, проблема кроется не в конкретной версии шифрования вроде WEP или WPA, а глубже — на самых нижних уровнях сетевой архитектуры. AirSnitch позволяет обойти механизм изоляции клиента — ту самую функцию, которую производители роутеров обещают как защиту от «соседа по Wi-Fi».

Идея изоляции проста: устройства внутри одной сети не должны напрямую «видеть» друг друга.

Но исследователи обнаружили, что из-за особенностей работы на уровнях Layer 1 и Layer 2 (физический и канальный уровни) можно добиться рассинхронизации идентификации клиента в сети. В итоге атакующий получает возможность провести полноценную двустороннюю атаку «человек посередине» (MitM) — перехватывать и изменять трафик.

Причём речь идёт не о каком-то одном бренде. Уязвимости подтвердились на роутерах Netgear, D-Link, TP-Link, ASUS, Ubiquiti, Cisco, а также на устройствах с DD-WRT и OpenWrt. Все протестированные модели оказались уязвимы хотя бы к одному варианту атаки.

 

Если соединение не защищено HTTPS, атакующий может читать и изменять весь трафик: логины, пароли, cookies, платёжные данные. Даже при использовании HTTPS возможны атаки через DNS-отравление или перехват доменных запросов.

Отдельно исследователи показали, что атака может работать даже между разными SSID, если они используют общую инфраструктуру. В корпоративных сетях это позволяет перехватывать трафик между точками доступа через распределительный коммутатор.

В теории это также открывает путь к атакам на RADIUS — систему централизованной аутентификации в корпоративных сетях.

В отличие от старых атак вроде взлома WEP, здесь злоумышленнику нужно уже иметь доступ к сети (или к связанной инфраструктуре). Это не атака «из машины на парковке» по умолчанию. Тем не менее в публичных сетях риск очевиден.

Некоторые производители уже начали выпускать обновления, но часть проблем может требовать изменений на уровне чипсетов. А единого стандарта изоляции клиентов не существует — каждый вендор реализует его по-своему.

Исследователи и эксперты советуют:

  • избегать публичных Wi-Fi, если это возможно;
  • использовать VPN (понимая его ограничения);
  • по возможности раздавать интернет с мобильного устройства;
  • в корпоративной среде двигаться в сторону Zero Trust.

AirSnitch (PDF) не разрушает Wi-Fi в одночасье, но возвращает часть рисков «эпохи диких хотспотов», когда ARP-spoofing был повседневной практикой.

RSS: Новости на портале Anti-Malware.ru