Red Teaming в применении к ИИ требует переосмысления

Red Teaming в применении к ИИ требует переосмысления

Red Teaming в применении к ИИ требует переосмысления

Учения Generative Red Team, проведенные в рамках DEF CON 32, показали, что подобный способ оценки защищенности ИИ не дает адекватной картины. Эксперты предлагают создать систему, подобную CVE и учитывающую целевое назначение объектов анализа.

В мероприятии приняли участие (PDF) около 500 добровольцев с разным опытом аудита больших языковых моделей (БЯМ, LLM). В 48 случаях за выявленные недочеты были выплачены премии — суммарно $7850.

Тем не менее организаторы пришли к выводу, что метод Red Teaming в применении к ИИ необходимо усовершенствовать. Большой проблемой оказалось фрагментарность документации по LLM, которые к тому же разнятся по предусмотренному применению.

Без учета назначения ИИ-модели и сообразных встроенных ограничений результаты таких проверок на прочность могут ввести в заблуждение. Более того, отсутствие единых критериев оценки может привести к противоречивым заключениям.

Бурный рост и развитие ИИ-технологий создали новые риски, однако ни у кого пока нет четкого представления о том, как тестировать такие продукты и выстраивать их защиту.

Обеспечение безопасности LLM, по словам экспертов, — нескончаемый процесс. Умные помощники могут ошибаться, им свойственны галлюцинации, предвзятость (из-за неправильного обучения), уязвимость к инъекции стимула. Подобные системы бесперспективно защищать от взлома, однако его можно сделать более затратным, а последствия — краткосрочными.

Организаторы Generative Red Team призывают ИИ- и ИБ-сообщества совместными усилиями решить настоятельные проблемы. В противном случае техническая революция приведет к появлению ИИ-инструментов, на которые невозможно положиться; живой пример тому — скороспелка DeepSeek.

Расширения Chrome могут слить секреты URL через атаку по стороннему каналу

Как оказалось, расширения Chrome можно использовать для слива кодов авторизации, сеансовых ID и других секретов из URL любой открытой вкладки. Никаких специальных разрешений для этого не понадобится, только доступ к declarativeNetRequest API.

Этот механизм, пришедший на смену webRequest API, позволяет расширениям сообщать браузеру, что следует изменить или заблокировать на загружаемой странице (заголовки, реклама, трекеры).

Правила обработки запросов при этом добавляются динамически, а фильтрация осуществляется по регулярным выражениям, соответствующим подмножествам знаков, которые могут присутствовать на определенных позициях в URL.

Исследователь Луан Эррера (Luan Herrera) обнаружил, что блокировку, диктуемую правилами, Chrome производит почти мгновенно, за 10-30 мс, а остальные запросы выполняются дольше (~50-100ms) — из-за сетевых подключений. Эту разницу во времени расширение может использовать для бинарного поиска с целью посимвольного слива URL.

// extensions/browser/api/web_request/extension_web_request_event_router.cc:1117-1127
case DNRRequestAction::Type::BLOCK:
  ClearPendingCallbacks(browser_context, *request);
  DCHECK_EQ(1u, actions.size());
  OnDNRActionMatched(browser_context, *request, action);
  return net::ERR_BLOCKED_BY_CLIENT;

Оракул для подобной тайминг-атаки строится с использованием chrome.tabs.reload для перезагрузки страницы и перехватчика chrome.tabs.onUpdated, помогающего отследить событие status === "complete". Замер времени между reload и завершением загрузки покажет, заблокирован запрос или успешно обработан.

Повторение проверок и бинарного поиска позволяет получить полный URL (с довеском после «?»), затратив на каждый знак строки несколько прогонов. Таким образом, можно незаметно для пользователя украсть включенные приложением в адрес секреты — токены OAuth и сброса пароля, API-ключи, ссылки на контент, закрытый для поисковых систем.

Проверка PoC проводилась на Windows 11 24H2 с использованием Chrome разных версий:

  • 144.0.7559.97 (Stable)
  • 145.0.7632.18 (Beta)
  • 146.0.7647.4 (Dev)
  • 146.0.7653.0 (Canary)

В Google подтвердили возможность подобной атаки по стороннему каналу, но заявили, что решить проблему нереально.

RSS: Новости на портале Anti-Malware.ru