Сотрудник: У Google есть данные моего деда, но он никогда не был в Сети

Сотрудник: У Google есть данные моего деда, но он никогда не был в Сети

Сотрудник: У Google есть данные моего деда, но он никогда не был в Сети

Джо Тоскано, консультант по проектированию, проработавший в Google до 2017 года, поделился неприятным опытом сбора данных, который практикует интернет-гигант.

Около двух лет назад Тоскано ушёл из Google из-за «разногласий на почве этики». Однако в этом году специалист открыл для себя неприятные нюансы, связанные со сбором корпорацией данных и отслеживанием пользователей в Сети.

Этим летом Тоскано зашёл в раздел «адреса» в браузере Chrome (chrome://settings/addresses). Экс-сотрудник обнаружил там данные, связывающие его с бабушкой по папиной линии.

При этом стоит учитывать, что у бабушки никогда не было доступа в интернет. Но Google тем не менее как-то связал двух родственников.

Но и это ещё не все. Поисковой гигант располагал информацией, связывающей Тоскано с ныне покойным дедушкой по маминой линии. В марте 2019 года этот человек ушёл из жизни, и у него также никогда не было доступа в Сеть.

Джо Тоскано очень насторожило такое положение дел. Несмотря на то, что бабушка с дедушкой никогда за свою жизнь не пользовались интернетом, Google располагал их точными физическими адресами и знал их средние имена.

«Я никогда не вводил эти данные сам, а также никто не вводил их с моего аккаунта. Тем не менее эта информация почему-то связана с моей учетной записью. Как это получилось?», — объясняет Тоскано.

«Единственная схема, которая мне приходит в голову: дедушка передал эти данные кому-то в реальной жизни, после чего на определённом этапе их продали Google. Однако тут возникает еще один вопрос: каким образом эти данные связали с моим аккаунтом?».

Но Тоскано не меньше волнует и ещё один нюанс — что Google знает об остальных его родственниках.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru