Apple не даст властям использовать функцию сканирования фото пользователей

Apple не даст властям использовать функцию сканирования фото пользователей

Apple не даст властям использовать функцию сканирования фото пользователей

По словам Apple, корпорация будет отклонять все требования властей, связанные с эксплуатацией новой функции сканирования фото- и видеоматериалов на устройствах пользователей. Яблочный техногигант ещё раз подчеркнул, что нововведение будет использоваться исключительно для обнаружения детской порнографии и другого преступного обращения с несовершеннолетними.

Какой первый вопрос задали специалисты по защите информации, когда узнали о планах Apple? Насколько тщательно и добросовестно будет соблюдаться конфиденциальность пользователей. Как следствие — корпорация получила массу критики в свой адрес.

Как только Apple внедрит новую функциональность, дальше уже ничего не помешает расширить и дополнить её, считают эксперты. В частности, компания может предоставить властям возможность следить за гражданами.

И это, конечно же, вполне уместные опасения, поскольку ранее власти уже не раз требовали внедрять бэкдоры, которые бы помогали правоохранителям извлекать информацию из девайсов подозреваемых. Да и сама Apple прекрасно понимает, что к ней рано или поздно придут и потребуют доступ к функции сканирования контента пользователей — купертиновцы вами согласились с вероятностью такого развития событий.

Тем не менее корпорации решила опубликовать специальный FAQ (PDF), подробно разъясняющий позицию руководства по этому вопросу.

«Apple будет отказывать в любых подобных просьбах. Наша новая технология создана исключительно для того, чтобы выявлять сцены жестокого обращения с детьми до выгрузки соответствующих материалов в iCloud. Ранее мы уже сталкивались с требованиями нарушить безопасность и конфиденциальность пользователей, причём успешно пресекали такие попытки», — говорится в документе.

Напомним, на днях стало известно о планах Apple — сканировать фото пользователей, борясь таким способом с насилием над детьми. А вчера мы писали, что глава WhatsApp не поддержал эту идею.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru