ИИ-механизм Windows Recall не всегда распознает данные кредиток и SSN

ИИ-механизм Windows Recall не всегда распознает данные кредиток и SSN

ИИ-механизм Windows Recall не всегда распознает данные кредиток и SSN

Тестирование ИИ-функции Recall, которую Microsoft вернула в сборки Windows Insiders, показало, что обновление устранило не все проблемы с приватностью. Распознавание персональных и платежных данных иногда отказывает, и они сохраняются в базе.

В ходе испытаний фильтр конфиденциальной информации, дефолтно используемый ИИ-помощником Recall, исправно отработал лишь на страницах платежей двух коммерческих сайтов: скриншот был сделан до ввода данных кредитки (фейковых) или уже после очистки полей.

Однако если эти сведения вместе с учетками записать в Блокнот Windows для последующего копипаста, захват экрана произойдет даже при наличии в тексте явного признака конфиденциальности — названия банковской карты (вслед за номером исследователь вбил «Capital One Visa»).

Такой же результат был получен при заполнении PDF-бланка заявки на кредит в Microsoft Edge, с указанием имени, даты рождения и номера страховки. Как оказалось, в этих случаях Recall не остановит даже ввод номера реальной кредитки пользователя — он все равно зафиксирует его скриншотом и сохранит.

Экспериментатор также создал собственную страницу HTML с полями для ввода платежных данных и четкой подсказкой: «ниже введите данные кредитной карты». После заполнения веб-форма тоже была с успехом отправлена на хранение.

 

В ответ на запрос исследователя о комментарии представитель Microsoft указал на запись о приватности в блоге компании, посвященном Recall Preview:

«Мы обновили Recall, и он теперь детектирует конфиденциальную информацию такую как данные кредитных карт, пароли и персональные идентификаторы. При ее обнаружении скриншот не сохраняется и хранению не подлежит. Мы и далее будет совершенствовать эту функциональность. Если вы нашли данные, которые тоже стоит фильтровать, сообщите об этом через концентратор обратной связи».

Анонс Windows Recall в минувшем мае вызвал бурную дискуссию: появились опасения, что нововведение небезопасно. Фиксируя все действия пользователя на компьютере, дефолтно включенный ИИ-ассистент сохранял такие данные локально в открытом виде, что провоцировало кражу.

В ответ на резкую критику Microsoft изъяла Recall из пробных сборок ОС, предоставляемых по программе Windows Insiders, и пообещала внести исправления. В итоге ИИ-помощник теперь по умолчанию отключен, при каждом запуске требует аутентификации через Windows Hello и старательно шифрует хранимые конфиденциальные данные (последнее тестирование это подтвердило).

Надежность шифрования исследователь не смог оценить, однако в ходе экспериментов ему не удалось без запуска Recall открыть файл базы данных (ukg.db) и файлы из папки со скриншотами (AsymStore). Вместе с тем защита в виде Windows Hello, по его мнению, предоставляет злоумышленникам лазейку.

В тех случаях, когда на вход вместо биометрии установлен четырехзначный ПИН, взлом или кража этого ключа откроет доступ к ИИ-приложению. Его даже можно будет получить удаленно — с помощью TeamViewer.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru