Дипфейк-атаки на бизнес: как мошенники подделывают голос и видео в реальном времени

Дипфейк-атаки на бизнес: как защититься от подделки голоса и видео

Дипфейк-атаки на бизнес: как защититься от подделки голоса и видео

Голос начальника, видео коллеги в Zoom, звонок из банка — всё это может быть подделкой. Разбираем, как дипфейк-атаки работают в реальном времени, какие технологии за ними стоят и как бизнесу выстроить защиту.

 

 

 

 

 

 

  1. 1. Введение
  2. 2. Техническая анатомия атак: как это работает
    1. 2.1. Синтетический голос
    2. 2.2. Синтетическое видео
    3. 2.3. Синхронный deepfake: голос + видео
  3. 3. Почему традиционные средства защиты не видят дипфейк-атаку
  4. 4. Почему человек больше не последняя линия защиты и что говорит закон
  5. 5. Типовые сценарии атак на бизнес
    1. 5.1. Когда поддельная переписка получает голос и лицо
    2. 5.2. Атаки на клиентов, партнёров и цепочки поставок
    3. 5.3. Целевые атаки через видеоконференции
    4. 5.4. Репутационные и шантажные сценарии
    5. 5.5. Корпоративный шпионаж, инсайдерские схемы и биржевые манипуляции
  6. 6. Технические методы детектирования
    1. 6.1. Российские разработки
  7. 7. Почему обнаружение становится всё сложнее
    1. 7.1. Что можно сделать уже сейчас: чек‑лист для компании
  8. 8. Выводы

Введение

Генерация голоса и видео в реальном времени стала рабочим инструментом мошенников. Достаточно собрать открытые записи, обучить модель — и подмена голоса или изображения появляется прямо во время звонка в Zoom или телефонного разговора. Снаружи всё выглядит как обычное общение: номер телефона реальный, аккаунт в мессенджере настоящий, а вот голос и изображение — синтетические. Поэтому антифрод-системы и центры мониторинга (Security Operations Center, SOC) видят лишь обычный звонок или видеоконференцию, а не атаку.

Исследование, опубликованное в журнале PLOS ONE, показало, что среди 529 участников, которые слушали реальные и сгенерированные записи, только 73 % смогли определить подделку. Почти каждый четвёртый голосовой дипфейк остаётся незамеченным, особенно в стрессовой или срочной ситуации.

Стоимость таких инцидентов уже измеряется десятками миллионов долларов. В 2024 году сотрудник Arup перевёл $25 млн после видеоконференции, где злоумышленники использовали дипфейковые образы руководителей. В случае Ferrari мошенники сгенерировали голос генерального директора и пытались провести финансовую операцию — атаку остановил уточняющий вопрос, на который подделка не смогла ответить. В случае с LastPass злоумышленники использовали аудиодипфейк CEO, чтобы получить доступ к внутренним системам через WhatsApp, однако сотрудник распознал подмену.

В 2025 году в мире циркулировало около 8 млн синтетических медиафайлов, а темпы роста их количества достигали 900 % в год. Эксперты «Гарды» и РТУ МИРЭА ожидают, что в 2026 году подмена голоса в реальном времени и компрометация цифровых личностей через облачные сервисы и биометрию станут массовым вектором атак.

 

Рисунок 1. Рост мирового рынка синтетических медиа (источник: ResearchAndMarkets)

Рост мирового рынка синтетических медиа (источник: ResearchAndMarkets)

 

Техническая анатомия атак: как это работает

Атаки с дипфейками проходят три шага: сбор записей, подготовка модели и подмена голоса или видео в канале связи. Злоумышленник находит публичные аудио- и видеозаписи, очищает их и формирует цифровой профиль голоса или лица. Затем он либо генерирует поток на сервере, либо меняет свой голос и изображение прямо во время звонка с помощью преобразования голоса, виртуальной камеры или подмены видеопотока. На качество влияют объём исходных данных, качество записи, задержка обработки и синхронизация звука и изображения.

Синтетический голос

Для создания голосовой копии собирают записи речи из любых доступных источников: YouTube, интервью в СМИ, подкасты, корпоративные выступления, записи вебинаров, голосовые сообщения в мессенджерах. Эти фрагменты используют для обучения модели.

Сегодня для создания узнаваемой голосовой копии достаточно 3–15 секунд чистой записи. Современные системы мгновенного клонирования анализируют короткий фрагмент и сразу создают голосовой отпечаток. Для профессиональных подделок, неотличимых от оригинала, требуется 10–30 минут разнообразного аудио с разными эмоциями и интонациями.

Существует два подхода. Первый — клонирование голоса, когда модель учится говорить как конкретный человек. Второй — преобразование голоса, когда голос злоумышленника в реальном времени превращается в голос нужного человека. Задержка стала настолько низкой, что разговоры в VoIP и Zoom звучат естественно и не вызывают подозрений.

Стоимость создания голосовой копии за три–пять лет резко снизилась. В 2023 году минута дипфейк-записи стоила $300–20 000. По данным «Лаборатории Касперского», сегодня в даркнете голосовые подделки предлагают от $30 — цены снизились в сотни раз. Коммерческие инструменты стоят от $1 за минуту синтеза. Порог входа практически исчез.

Современные модели передают не только тембр, но и эмоции — срочность, раздражение, тревогу. Это усиливает эффект социальной инженерии: короткая команда звучит так, будто её произносит реальный руководитель.

Где подделка заметна: длинные монологи, сложные эмоции, фоновые шумы.
Где почти неотличима: короткие команды и деловые фразы.

 

Рисунок 2. Схема модели генеративного синтеза речи (источник: PLOS ONE)

Схема модели генеративного синтеза речи (источник: PLOS ONE)

 

Синтетическое видео

Синтетическое видео развивается по двум направлениям: подмена лица и перенос мимики. Для подмены в реальном времени используют GPU-ускорение и виртуальные камеры — программы, которые подставляют сгенерированный поток вместо сигнала с физической камеры. Это позволяет транслировать заранее подготовленные кадры как живое видео.

Отдельный риск — инъекционные атаки. Это подмена видеопотока внутри приложения через перехват системных вызовов или подмену устройства камеры. Подделка поступает в приложение уже после камеры, но до модуля биометрической проверки, поэтому обходит проверки «живости» и не оставляет характерных искажений. Такие техники уже используют для обхода систем удалённой идентификации в банках и финансовых сервисах.

Ранее для создания качественного дипфейка требовались тысячи фотографий целевого человека. Модели обучали на больших наборах лиц с разных ракурсов и при разном освещении, иногда до 10 000 изображений на одного человека. Исследователи Samsung и Сколтеха показали, что достаточно одного (one-shot) или нескольких (few-shot) снимков. Модель предварительно обучают на массиве случайных лиц, где она изучает общие закономерности — движение губ, повороты головы, реакцию на освещение. Затем её дообучают на конкретном человеке по одной-двум фотографиям, чего уже достаточно для убедительной копии.

Современные алгоритмы вместо полной реконструкции используют универсальные ключевые точки лица и контролируемую деформацию, что снижает требования к данным и ускоряет генерацию.

Задержка генерации сократилась до 50–100 миллисекунд, что укладывается в обычную задержку видеозвонка. Обычные видеокарты обеспечивают 30–50 кадров в секунду, а на мощных GPU задержка может снижаться ниже 50 миллисекунд. Инъекционные атаки работают ещё быстрее: подмена происходит внутри приложения и практически не добавляет задержки.

Видеоконференции стали удобной средой для атак по нескольким причинам:

  • Приложения доверяют виртуальной камере как обычному устройству, не отличая её от физической.
  • Платформы сильно сжимают поток кодеками H.264 / H.265, и артефакты сжатия маскируют следы подделки (размытые волосы, границы лица, неестественное освещение).
  • Маленькое окно видеозвонка и переменное разрешение скрывают дефекты, которые были бы заметны на полном экране.
  • Короткие звонки со статичной позой и минимальной мимикой создают идеальные условия: мало резких движений и нет необходимости в длительной синхронизации.
  • Участники сосредоточены на содержании разговора, а не на качестве изображения; запись встреч часто отключена, а полноценные проверки «живости» отсутствуют — инъекционная подмена проходит незаметно.

Где подделка заметна: резкие движения, перекрытия лица, разное освещение, артефакты на фоне.

Где почти неотличима: короткие видеозвонки в низком разрешении.

 

Рисунок 3. Приложение для создания дипфейк-видео (источник: GitHub)

Приложение для создания дипфейк-видео (источник: GitHub)

 

Синхронный deepfake: голос + видео

Самый опасный сценарий — одновременная подмена голоса и изображения. Синхронизация губ и мимики с клонированным голосом сложна, но модели быстро прогрессируют. Такой дипфейк подрывает доверие к видеосвязи как к способу подтверждения личности.

Почему традиционные средства защиты не видят дипфейк-атаку

Почтовый шлюз не видит поддельный голос, потому что атака происходит вне почты — в телефонном звонке, мессенджере или видеоконференции. Фильтры анализируют текст и вложения, а не аудиопоток.

Система мониторинга событий безопасности (Security Information and Event Management, SIEM) фиксирует обычный звонок. Трафик идёт по легитимному каналу, пользователь подключается через привычное приложение, и технические индикаторы атаки отсутствуют.

Многофакторная аутентификация также не помогает. Злоумышленник не взламывает учётную запись, а убеждает сотрудника выполнить действие добровольно, используя социальную инженерию и подменённую личность.

Биометрия, которая должна была стать барьером, сама становится целью. Мошенники подменяют видеопоток до модуля проверки «живости», и система получает синтетическое лицо, синхронизированное с голосом, без характерных искажений.

Синхронный дипфейк создаёт иллюзию реального присутствия. Он не вызывает технических срабатываний, не оставляет явных следов в логах и опирается на доверие человека к голосу и лицу собеседника.

Почему человек больше не последняя линия защиты и что говорит закон

Раньше считалось, что подделку можно распознать на слух или на глаз: уловить неестественную интонацию, странные движения губ, «роботизированный» тон, почувствовать, что что-то не так. Практика показывает, что это работает только в спокойной ситуации. В реальном разговоре, особенно при давлении срочности или авторитета, человек не анализирует детали: он слышит знакомый голос, видит знакомое лицо и доверяет.

Это и есть когнитивная ловушка. Человек автоматически доверяет голосу и видео, особенно если сообщение приходит по привычному каналу. По данным iProov, лишь около 0,1 % людей способны отличить синтетическое видео от настоящего.

Обучение в лоб почти не помогает: сотрудники привыкают к предупреждениям, устают от фишинг-симуляций и действуют по привычному сценарию. После инцидентов часто звучит одна и та же формулировка: «Звонок был очень похож на настоящий».

На этом фоне в России появляются законодательные меры. В Госдуму внесён законопроект о введении уголовной ответственности за создание дипфейков (предлагаемая статья 272.1 УК РФ) — штраф до 300 тыс. рублей или лишение свободы до четырёх лет. Также предлагается учитывать использование дипфейков как отягчающее обстоятельство при совершении преступлений. Синтетические материалы в предвыборной агитации уже запрещены Федеральным законом № 130-ФЗ. Минцифры сформировало рабочую группу по противодействию дипфейкам; обсуждаются маркировка синтетического контента и механизмы подачи жалоб.

Однако даже при наличии законов и технологий уязвимость сохраняется. Человек по-прежнему склонен доверять тому, что видит и слышит, поэтому человеческий фактор остаётся самой слабой точкой.

Типовые сценарии атак на бизнес

Синтетические атаки маскируются под обычные рабочие коммуникации. Злоумышленники комбинируют подмену голоса, видео и переписки с приёмами социальной инженерии. Они используют те же каналы, что и сотрудники: почту, мессенджеры, корпоративные чаты и видеоконференции. На другом конце при этом находится не человек, а сгенерированная копия, которая звучит и выглядит достаточно естественно.

Когда поддельная переписка получает голос и лицо

BEC-атаки (компрометация корпоративной почты) уже не ограничиваются письмами якобы от руководителя. Теперь злоумышленники выстраивают многоступенчатую цепочку, в которой каждое звено усиливает предыдущее.

Сначала приходит письмо с похожего домена — достаточно одной изменённой буквы, чтобы сотрудник не заметил подмену. Затем появляется голосовое сообщение: знакомый голос просит проверить почту или согласовать документ. После этого следует видеозвонок, где на экране виден человек, которого сотрудник знает (руководитель, коллега, партнёр).

Письмо выглядит рабочим, голос совпадает с привычным, а видеосвязь воспринимается как надёжный способ подтверждения личности. В условиях удалённой работы, когда сотрудники редко видят руководителя лично, видеозвонок становится почти безусловным доказательством подлинности — этим и пользуются злоумышленники.

По данным ФБР (IC3, 2025), ущерб от BEC-атак в 2025 году превысил $3 млрд. В России и СНГ 64 % целевых атак начинаются с фишинговых писем. Теперь к тексту добавляются голос и видео, и фильтров почтового шлюза уже недостаточно.

 

Рисунок 4. Топ-5 видов киберпреступлений и уязвимые возрастные группы (источник: FBI)

Топ-5 видов киберпреступлений и уязвимые возрастные группы (источник: FBI)

 

Атаки на клиентов, партнёров и цепочки поставок

Дипфейки используют не только против самой компании, но и против её окружения. Компрометация одного контрагента открывает доступ к другим организациям, которые ему доверяют. Поэтому цепочка поставок становится удобной целью.

Ниже — типичные сценарии.

Звонки от имени банка или оператора. Мошенники используют поддельный голос сотрудника и запрашивают данные, которые действительно могут понадобиться в процессе обслуживания: подтверждение операции, реквизиты, код из СМС (при этом реальные сотрудники не запрашивают коды). Формат разговора совпадает с привычным, и человек передаёт информацию, не подозревая подмены. По данным МВД, получив образец голоса, злоумышленники убеждают жертву, что от её имени уже пытались оформить кредит, и переводят разговор в сценарий «спасения средств».

Подделка видеоидентификации при удалённом открытии счетов и прохождении KYC (Know Your Customer, «знай своего клиента»). Клиент показывает лицо в камеру, выполняет инструкции (повернуть голову, моргнуть), а дипфейк подменяет видеопоток ещё до того, как он попадает в систему проверки. Так злоумышленники открывают счета, оформляют кредиты или получают доступ к финансовым сервисам от имени реальных людей. Они комбинируют поддельные документы, генерацию лица в реальном времени и инъекционные атаки, обходя проверки «живости».

Фальшивые кандидаты на работу. Злоумышленники создают дипфейк-персону и проходят первичное интервью по видеосвязи. После собеседования им выдают доступы для тестового задания или подключают к корпоративным сервисам — этого достаточно, чтобы получить точку входа в инфраструктуру компании. Amazon за полтора года заблокировала более 1800 таких соискателей, связанных с Северной Кореей. Gartner прогнозирует, что к 2028 году каждый четвёртый кандидат может оказаться мошенником.

В России Единая биометрическая система объединяет более 70 млн человек, выполнено свыше 100 млн операций. Биометрия защищена проверкой «живого» лица, однако в сценариях удалённой идентификации риск подмены видеопотока сохраняется.

Целевые атаки через видеоконференции

Видеоконференции — удобный канал для дипфейк-атак. Низкое разрешение, агрессивное сжатие и отсутствие полноценной биометрии скрывают артефакты подмены.

Северокорейская группировка Lazarus развернула масштабную кампанию против криптовалютных и финтех-компаний. Злоумышленники взламывали Telegram-аккаунт знакомого жертвы, а затем от его имени приглашали на Zoom-звонок. Ссылка вела на поддельную страницу, где транслировалось дипфейк-видео владельца аккаунта.

Через несколько секунд после начала встречи появлялось сообщение об ошибке и инструкция, как исправить звук. Это классический приём ClickFix. Жертва копирует команду в попытке устранить неисправность и, не осознавая этого, запускает вредоносный PowerShell-скрипт.

Весь процесс — от перехода по ссылке до полного захвата системы — занимал менее пяти минут. Установленная программа похищала криптовалюту, Telegram-сессии, учётные данные браузера и открывала удалённый доступ к устройству. Аналитики выявили более 100 жертв в 20 странах, 45 % из них — руководители компаний.

По данным CertiK, только в апреле 2026 года криптоотрасль потеряла более $600 млн, причём основная часть потерь связана с атаками Lazarus.

Репутационные и шантажные сценарии

Дипфейки используют для давления на людей и подрыва доверия к компаниям. Поддельное видео, на котором человек оказывается в компрометирующей ситуации, становится инструментом манипуляции и шантажа. Даже несовершенная подделка вызывает сильную эмоциональную реакцию: человек видит самого себя и теряет способность критически оценивать происходящее. Эмоциональный шок блокирует рациональное мышление, и жертва готова заплатить, лишь бы видео не попало в открытый доступ.

Летом 2025 года мошенники атаковали генерального директора WPP Марка Рида. Они создали фальшивый аккаунт в WhatsApp, использовали его публичные фотографии и организовали встречу в Microsoft Teams. Голос был клонирован, видео собрано из фрагментов YouTube. На встречу пригласили руководителя одного из агентств группы и попытались убедить его открыть новую компанию, чтобы выманить деньги и получить персональные данные. Схема не сработала: сотрудники вовремя заметили нестыковки и остановили атаку.

По данным исследования «Информзащиты», почти две трети целевых атак на корпоративном уровне направлены на руководителей высшего звена. Чаще всего — в ретейле (26 %), финансах (17 %) и страховании (17 %). Среди наиболее распространённых сценариев атак на топ-менеджеров — компрометация данных через личные устройства (28 %), использование дипфейк-технологий (15 %) и атаки на цепочки поставок (14 %).

Многие инциденты начинаются с нарушений базовой цифровой гигиены со стороны самих топ-менеджеров. Они используют личную почту для рабочих задач, не блокируют устройства и пересылают документы в мессенджерах без шифрования.

По данным Resemble AI, в 2025 году дипфейки, направленные на подрыв репутации и бренда, обеспечили 156,3 млрд медиаохватов. Финансовый ущерб раскрывается лишь примерно в 20 % случаев, однако совокупные потери оцениваются более чем в $1,28 млрд.

 

Рисунок 5. Охват по типам атак (источник: Resemble AI)

Охват по типам атак (источник: Resemble AI)

 

Корпоративный шпионаж, инсайдерские схемы и биржевые манипуляции

Дипфейки используют для получения конфиденциальной информации. Злоумышленник клонирует голос руководителя и просит сотрудника прислать договор, выгрузку по клиентам или отчёт. В России, где мессенджеры стали основным каналом оперативных поручений, короткое голосовое сообщение «скинь файл» не вызывает подозрений.

По данным iProov, 41 % организаций уже сталкивались с дипфейк-атаками на руководителей. Gartner отмечает, что 37 % ИБ-лидеров фиксировали дипфейк-инциденты во время видеозвонков.

К этому же направлению относятся биржевые манипуляции. Одно короткое сообщение от имени генерального директора о пересмотре дивидендов или срыве сделки способно вызвать резкие колебания котировок. В 2025 году акционеры Ostin Technology Group подали иск на $950 млн, утверждая, что поддельные видео и манипуляции с акциями обрушили стоимость компании на 94 % за один день.

Современная дипфейк-атака редко ограничивается одним каналом. Злоумышленники выстраивают цепочку: письмо, голос, видео, давление по срокам. Пока сотрудник не проверяет запрос по независимому каналу, он остаётся уязвим.

Технические методы детектирования

Задача детектора дипфейков — выявить артефакты, возникающие при синтезе голоса или видео.

Анализ аудио. Синтетическую речь выдают спектральные аномалии, избыточно сглаженный сигнал и отсутствие фонового шума, характерного для реальных микрофонов. Однако при телефонных разговорах и VoIP-звонках аудио дополнительно сжимается, артефакты маскируются, и точность детектирования снижается. Поэтому аудиоанализ более надёжен при офлайн-проверке записей, а не в реальном времени.

Анализ видео. Детекторы ищут несоответствия в микродвижениях лица, частоте моргания, отражениях на роговице и неравномерности освещения. Один из методов — анализ фотоплетизмограммы (rPPG): система отслеживает микроизменения цвета кожи, связанные с сердцебиением. У синтетического лица такого кровотока нет. Проблема в том, что при низком качестве видео или небольшом окне видеозвонка эти признаки теряются.

Российские разработки

В России уже есть инструменты, которые помогают выявлять дипфейки. Ниже — примеры.

KodikScan — бесплатный сервис, который проверяет изображения, видео, аудио и текст и определяет, созданы ли они нейросетью. В ряде случаев сервис также показывает модель, которая могла сгенерировать контент.

VisionLabs (LUNA Platform 5) — детектор для видеозвонков и биометрии. По данным разработчика, система распознаёт четыре типа подделок: замену лица, перенос мимики, синтез губ и полностью сгенерированные лица. Технология используется в MTS ID KYC и доступна в системах видеоконференций с 2025 года.

«Контур.Толк» — российский сервис видеосвязи с функцией выявления дипфейков в реальном времени. Он анализирует видеопоток во время звонка и выявляет визуальные несоответствия.

«Алетейя» от «Сбера» — технология для обнаружения дипфейков в видео с несколькими участниками, сложным фоном и меняющимся освещением. Модель обучена на большом массиве реальных и синтетических данных.

«Сипуха» (НИЯУ МИФИ) — нейросеть, которая различает живую речь и синтезированную. Подходит для проверки голосовых сообщений.

DetAFake — стартап с собственным инструментом для выявления дипфейков. Вошёл в топ-100 перспективных российских проектов по версии RB Choice.

Smart Engines «Шерлок 3.0» — система для проверки цифровых документов. Анализирует микротекстуру печатей, голограмм и шрифтов, помогая выявлять поддельные паспорта и удостоверения, созданные с использованием нейросетей.

Почему обнаружение становится всё сложнее

Развитие технологий и появление новых детекторов не упрощают задачу. Основные причины:

  1. Генераторы развиваются быстрее детекторов. Раньше дипфейки оставляли заметные следы: неровные границы лица, искажения частот, неестественное моргание. Современные модели генерируют кадр целиком и устраняют типичные артефакты. В результате детекторы, обученные на старых наборах данных, теряют до 10–15 % точности на новых типах подделок.
  2. Детекторы плохо обобщают результаты. Алгоритм, обученный на одном типе дипфейков, часто не распознаёт контент, созданный другой моделью.
  3. Сжатие видео скрывает признаки синтеза. Мессенджеры и платформы видеосвязи агрессивно сжимают поток, устраняя мелкие дефекты, на которые опираются детекторы. Это снижает точность как на подделках, так и на реальных записях.
  4. Атаки в реальном времени сложнее анализировать. Записи можно проверять без ограничений по времени и ресурсам, тогда как в онлайне детектор работает с минимальной задержкой и ограниченной вычислительной мощностью. Это увеличивает вероятность ошибок.
  5. Универсального признака дипфейка не существует. Разные генераторы оставляют разные артефакты, которые можно адаптировать под конкретные методы детектирования.

Детекция — полезный инструмент, но не полноценная защита. Она помогает разбирать инциденты и проверять подозрительные материалы, однако полагаться только на неё, особенно в реальном времени, рискованно.

Что можно сделать уже сейчас: чек‑лист для компании

Нужны простые процессные меры, которые работают независимо от качества видео и голоса.

  • Пересмотрите операции, подтверждаемые по голосу или видео, и исключите действия без второго канала.
  • Внедрите правило второго канала для всех критичных операций: платежей, смены реквизитов, передачи конфиденциальных данных.
  • Включите непрерывную верификацию участников видеовстреч и отслеживайте аномалии: устройства, геолокацию, задержки аудио.
  • Обучите сотрудников не доверять голосу руководителя без проверки и действовать строго по процедуре.
  • Настройте логирование подозрительных звонков и видеосессий и назначьте ответственного за их разбор.
  • Отключите виртуальные камеры на важных встречах и используйте проверяемый видеопоток с корпоративной аутентификацией.
  • Проверяйте устройства и IP-адреса участников критичных видеозвонков.
  • Записывайте такие сессии и храните их для последующего анализа, интегрировав журналы с SIEM.

Эти меры не требуют значительных затрат, но создают процессный барьер, который блокирует большинство дипфейк-атак.

Выводы

Дипфейки стали реальной угрозой для компаний. Голос и видео больше не являются надёжным подтверждением личности, а привычные каналы связи можно подделать. Переход к генерации в реальном времени и появление сервисов «дипфейк как услуга» сделали атаки быстрыми, убедительными и доступными даже для неквалифицированных злоумышленников.

Защита работает только при сочетании технологий с понятными процессами и дисциплиной. Если злоумышленник может говорить голосом генерального директора и появляться на экране с его лицом, единственным надёжным барьером остаются критическое мышление и простые процедуры проверки.

Полезные ссылки: