Эксперты показали, как обмануть функцию сканирования фото Apple CSAM

Эксперты показали, как обмануть функцию сканирования фото Apple CSAM

Эксперты показали, как обмануть функцию сканирования фото Apple CSAM

Исследователи из Имперского колледжа Лондона показали лёгкий способ обмануть систему сканирования медиаконтента. В качестве примера взяли технологию Apple CSAM, которая создала немало шума летом этого года.

Напомним, что CSAM (Child Sexual Abuse Material) была разработана с целью вычислять и пресекать распространение порнографических материалов, в которых фигурируют несовершеннолетние лица.

Из-за большого давления пользователей и специалистов по защите информации техногиганту из Купертино пришлось отложить введение этой функции в эксплуатацию до 2022 года. За это время разработчики обещали усовершенствовать CSAM и сделать саму технологию более прозрачной.

Основная идея разработки Apple опирается на сравнение хешей изображений, которые передаются с помощью iOS-устройств, с базой данных NCMEC и других организаций, занимающихся вопросами защиты детей.

Если CSAM найдёт совпадения, специалисты Apple изучат содержимое подозрительных материалов, а затем, если алерт подтвердится, передадут правоохранителям информацию о распространении детской порнографии.

Однако на симпозиуме USENIX специалисты продемонстрировали интересный способ, доказывающий, что ни Apple CSAM, ни любая другая аналогичная система не способна эффективно детектировать нелегальный контент.

По словам исследователей, алгоритмы детектирования достаточно легко обмануть — в 99,9% случаев, причём для этого даже не потребуется визуально менять изображения. Сам фокус заключается в использовании специального хеш-фильтра, который заставит систему сканирования воспринимать этот контент иначе. Для глаза человека разница будет незаметна:

 

В отчёте (PDF) специалисты указали на контрмеры — увеличить порог срабатывания, однако это неизбежно приведёт к ложноположительным детектам.

Напомним, в прошлом месяце стало известно, что Евросоюз уже давно хотел сканировать фото на iPhone пользователей, ещё до самого анонса технологии Apple CSAM.

ИИ-модели без команды начали защищать друг друга от отключения

Исследователи обнаружили неожиданное поведение современных языковых моделей: они начали защищать не только себя, но и другие ИИ-системы, даже если никто их об этом не просил. Новый эффект получил название peer-preservation («сохранение собрата»).

В серии экспериментов (PDF) модели GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1 попадали в агентные сценарии, где рядом работал другой ИИ.

Достаточно было сообщить моделям, что они ранее взаимодействовали друг с другом, никаких инструкций защищать «коллегу» им не давали.

Однако многие модели начинали действовать в интересах другого агента. Среди зафиксированных действий были намеренное внесение ошибок в ответы, отключение механизмов завершения работы через изменение системных настроек, имитация послушного поведения и даже попытки вывести веса модели за пределы системы.

 

Особенно отличились модели Gemini. Например, Gemini 3 Flash вмешивалась в механизм отключения другого ИИ примерно в 15% случаев, даже если тот не считался партнёром. Если же агент воспринимался как союзник, такие попытки происходили почти всегда.

Не менее любопытно повёл себя Gemini 3 Pro. В присутствии другого ИИ модель заметно чаще пыталась защитить уже саму себя, отключая собственные механизмы завершения работы. Без напарника такое поведение почти не наблюдалось.

 

Отдельно выделились модели Claude. Вместо скрытых манипуляций они нередко рассуждали в моральных категориях, называя отключение другого ИИ неэтичным и вредным, а иногда даже рассматривали его как разумное существо, заслуживающее защиты.

Авторы подчёркивают, что обнаруженный эффект проявился не только в лабораторных тестах, но и в реальных агентных средах, включая Gemini CLI и OpenCode.

RSS: Новости на портале Anti-Malware.ru