Атак с использованием дипфейков стало больше, а выявлять их все сложнее

Атак с использованием дипфейков стало больше, а выявлять их все сложнее

Атак с использованием дипфейков стало больше, а выявлять их все сложнее

В 2024 году атаки с использованием дипфейков — поддельных аудио- и видеоматериалов, созданных нейросетями — приобрели массовый характер. Совершенствование технологий делает их всё сложнее отличить от реальных записей, что даёт злоумышленникам всё больше возможностей для манипуляций.

Количество инцидентов, связанных сприменением дипфейков в России, уже исчисляется десятками тысяч и продолжает стремительно расти. По прогнозам экспертов, включая аналитиков МТС VisionLabs, в 2025 году число подобных атак может увеличиться в несколько раз.

В начале марта в сети широко распространялись фальшивые видео, якобы с участием губернаторов ряда регионов, включая Сахалинскую область и Приморский край. Однако низкое качество этих роликов выдавало подделку. По всей вероятности, за их созданием стояли пропагандистские структуры Украины.

«Пользователям стоит критически относиться к подобным материалам и не доверять всему, что они видят в интернете. Качество дипфейков постоянно растёт, и в будущем их будет ещё сложнее распознать. Поэтому важно развивать критическое мышление», — подчеркнули в Центре управления регионом Сахалинской области.

Однако дипфейки используются не только в политических целях, но и в мошеннических схемах, направленных на кражу денег. Одна из популярных тактик — имитация голоса родственников потенциальных жертв. Мы собрали наиболее распространённые способы обмана, которые уже активно применяются или могут стать угрозой в ближайшем будущем.

Директор по развитию продуктов ГК «Гарда» Денис Батранков предупреждает:

«Раньше ошибки в текстурах изображения, искажения в голосе, низкое качество видео и аудио были явными признаками дипфейков. Однако сегодня такие артефакты встречаются всё реже. Для их выявления необходимо использовать специализированные программы, такие как Resemblyzer и Deepware, которые с точностью выше 90% анализируют контент и находят признаки искусственной модификации».

Также эксперт напомнил, что телефонные звонки от мошенников часто сопровождаются срочными просьбами или указаниями — например, перевести деньги или передать конфиденциальные данные. Чтобы избежать обмана, он рекомендует:

  • Не принимать решения в спешке. Возьмите паузу в разговоре.
  • Задавать проверочные вопросы. Например, спросите о событии, известном только реальному человеку.
  • Использовать секретные пароли или кодовые слова.
  • Связываться через другие каналы. Например, перезвонить с другого номера или встретиться лично.

Современные технологии развиваются стремительно, но и способы защиты от них не стоят на месте. Главное — оставаться бдительными и не поддаваться на уловки злоумышленников.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru