
Голос начальника, видео коллеги в Zoom, звонок из банка — всё это может быть подделкой. Разбираем, как дипфейк-атаки работают в реальном времени, какие технологии за ними стоят и как бизнесу выстроить защиту.
- 1. Введение
- 2. Техническая анатомия атак: как это работает
- 3. Почему традиционные средства защиты не видят дипфейк-атаку
- 4. Почему человек больше не последняя линия защиты и что говорит закон
- 5. Типовые сценарии атак на бизнес
- 6. Технические методы детектирования
- 7. Почему обнаружение становится всё сложнее
- 8. Выводы
Введение
Генерация голоса и видео в реальном времени стала рабочим инструментом мошенников. Достаточно собрать открытые записи, обучить модель — и подмена голоса или изображения появляется прямо во время звонка в Zoom или телефонного разговора. Снаружи всё выглядит как обычное общение: номер телефона реальный, аккаунт в мессенджере настоящий, а вот голос и изображение — синтетические. Поэтому антифрод-системы и центры мониторинга (Security Operations Center, SOC) видят лишь обычный звонок или видеоконференцию, а не атаку.
Исследование, опубликованное в журнале PLOS ONE, показало, что среди 529 участников, которые слушали реальные и сгенерированные записи, только 73 % смогли определить подделку. Почти каждый четвёртый голосовой дипфейк остаётся незамеченным, особенно в стрессовой или срочной ситуации.
Стоимость таких инцидентов уже измеряется десятками миллионов долларов. В 2024 году сотрудник Arup перевёл $25 млн после видеоконференции, где злоумышленники использовали дипфейковые образы руководителей. В случае Ferrari мошенники сгенерировали голос генерального директора и пытались провести финансовую операцию — атаку остановил уточняющий вопрос, на который подделка не смогла ответить. В случае с LastPass злоумышленники использовали аудиодипфейк CEO, чтобы получить доступ к внутренним системам через WhatsApp, однако сотрудник распознал подмену.
В 2025 году в мире циркулировало около 8 млн синтетических медиафайлов, а темпы роста их количества достигали 900 % в год. Эксперты «Гарды» и РТУ МИРЭА ожидают, что в 2026 году подмена голоса в реальном времени и компрометация цифровых личностей через облачные сервисы и биометрию станут массовым вектором атак.
Рисунок 1. Рост мирового рынка синтетических медиа (источник: ResearchAndMarkets)
Техническая анатомия атак: как это работает
Атаки с дипфейками проходят три шага: сбор записей, подготовка модели и подмена голоса или видео в канале связи. Злоумышленник находит публичные аудио- и видеозаписи, очищает их и формирует цифровой профиль голоса или лица. Затем он либо генерирует поток на сервере, либо меняет свой голос и изображение прямо во время звонка с помощью преобразования голоса, виртуальной камеры или подмены видеопотока. На качество влияют объём исходных данных, качество записи, задержка обработки и синхронизация звука и изображения.
Синтетический голос
Для создания голосовой копии собирают записи речи из любых доступных источников: YouTube, интервью в СМИ, подкасты, корпоративные выступления, записи вебинаров, голосовые сообщения в мессенджерах. Эти фрагменты используют для обучения модели.
Сегодня для создания узнаваемой голосовой копии достаточно 3–15 секунд чистой записи. Современные системы мгновенного клонирования анализируют короткий фрагмент и сразу создают голосовой отпечаток. Для профессиональных подделок, неотличимых от оригинала, требуется 10–30 минут разнообразного аудио с разными эмоциями и интонациями.
Существует два подхода. Первый — клонирование голоса, когда модель учится говорить как конкретный человек. Второй — преобразование голоса, когда голос злоумышленника в реальном времени превращается в голос нужного человека. Задержка стала настолько низкой, что разговоры в VoIP и Zoom звучат естественно и не вызывают подозрений.
Стоимость создания голосовой копии за три–пять лет резко снизилась. В 2023 году минута дипфейк-записи стоила $300–20 000. По данным «Лаборатории Касперского», сегодня в даркнете голосовые подделки предлагают от $30 — цены снизились в сотни раз. Коммерческие инструменты стоят от $1 за минуту синтеза. Порог входа практически исчез.
Современные модели передают не только тембр, но и эмоции — срочность, раздражение, тревогу. Это усиливает эффект социальной инженерии: короткая команда звучит так, будто её произносит реальный руководитель.
Где подделка заметна: длинные монологи, сложные эмоции, фоновые шумы.
Где почти неотличима: короткие команды и деловые фразы.
Рисунок 2. Схема модели генеративного синтеза речи (источник: PLOS ONE)
Синтетическое видео
Синтетическое видео развивается по двум направлениям: подмена лица и перенос мимики. Для подмены в реальном времени используют GPU-ускорение и виртуальные камеры — программы, которые подставляют сгенерированный поток вместо сигнала с физической камеры. Это позволяет транслировать заранее подготовленные кадры как живое видео.
Отдельный риск — инъекционные атаки. Это подмена видеопотока внутри приложения через перехват системных вызовов или подмену устройства камеры. Подделка поступает в приложение уже после камеры, но до модуля биометрической проверки, поэтому обходит проверки «живости» и не оставляет характерных искажений. Такие техники уже используют для обхода систем удалённой идентификации в банках и финансовых сервисах.
Ранее для создания качественного дипфейка требовались тысячи фотографий целевого человека. Модели обучали на больших наборах лиц с разных ракурсов и при разном освещении, иногда до 10 000 изображений на одного человека. Исследователи Samsung и Сколтеха показали, что достаточно одного (one-shot) или нескольких (few-shot) снимков. Модель предварительно обучают на массиве случайных лиц, где она изучает общие закономерности — движение губ, повороты головы, реакцию на освещение. Затем её дообучают на конкретном человеке по одной-двум фотографиям, чего уже достаточно для убедительной копии.
Современные алгоритмы вместо полной реконструкции используют универсальные ключевые точки лица и контролируемую деформацию, что снижает требования к данным и ускоряет генерацию.
Задержка генерации сократилась до 50–100 миллисекунд, что укладывается в обычную задержку видеозвонка. Обычные видеокарты обеспечивают 30–50 кадров в секунду, а на мощных GPU задержка может снижаться ниже 50 миллисекунд. Инъекционные атаки работают ещё быстрее: подмена происходит внутри приложения и практически не добавляет задержки.
Видеоконференции стали удобной средой для атак по нескольким причинам:
- Приложения доверяют виртуальной камере как обычному устройству, не отличая её от физической.
- Платформы сильно сжимают поток кодеками H.264 / H.265, и артефакты сжатия маскируют следы подделки (размытые волосы, границы лица, неестественное освещение).
- Маленькое окно видеозвонка и переменное разрешение скрывают дефекты, которые были бы заметны на полном экране.
- Короткие звонки со статичной позой и минимальной мимикой создают идеальные условия: мало резких движений и нет необходимости в длительной синхронизации.
- Участники сосредоточены на содержании разговора, а не на качестве изображения; запись встреч часто отключена, а полноценные проверки «живости» отсутствуют — инъекционная подмена проходит незаметно.
Где подделка заметна: резкие движения, перекрытия лица, разное освещение, артефакты на фоне.
Где почти неотличима: короткие видеозвонки в низком разрешении.
Рисунок 3. Приложение для создания дипфейк-видео (источник: GitHub)
Синхронный deepfake: голос + видео
Самый опасный сценарий — одновременная подмена голоса и изображения. Синхронизация губ и мимики с клонированным голосом сложна, но модели быстро прогрессируют. Такой дипфейк подрывает доверие к видеосвязи как к способу подтверждения личности.
Почему традиционные средства защиты не видят дипфейк-атаку
Почтовый шлюз не видит поддельный голос, потому что атака происходит вне почты — в телефонном звонке, мессенджере или видеоконференции. Фильтры анализируют текст и вложения, а не аудиопоток.
Система мониторинга событий безопасности (Security Information and Event Management, SIEM) фиксирует обычный звонок. Трафик идёт по легитимному каналу, пользователь подключается через привычное приложение, и технические индикаторы атаки отсутствуют.
Многофакторная аутентификация также не помогает. Злоумышленник не взламывает учётную запись, а убеждает сотрудника выполнить действие добровольно, используя социальную инженерию и подменённую личность.
Биометрия, которая должна была стать барьером, сама становится целью. Мошенники подменяют видеопоток до модуля проверки «живости», и система получает синтетическое лицо, синхронизированное с голосом, без характерных искажений.
Синхронный дипфейк создаёт иллюзию реального присутствия. Он не вызывает технических срабатываний, не оставляет явных следов в логах и опирается на доверие человека к голосу и лицу собеседника.
Почему человек больше не последняя линия защиты и что говорит закон
Раньше считалось, что подделку можно распознать на слух или на глаз: уловить неестественную интонацию, странные движения губ, «роботизированный» тон, почувствовать, что что-то не так. Практика показывает, что это работает только в спокойной ситуации. В реальном разговоре, особенно при давлении срочности или авторитета, человек не анализирует детали: он слышит знакомый голос, видит знакомое лицо и доверяет.
Это и есть когнитивная ловушка. Человек автоматически доверяет голосу и видео, особенно если сообщение приходит по привычному каналу. По данным iProov, лишь около 0,1 % людей способны отличить синтетическое видео от настоящего.
Обучение в лоб почти не помогает: сотрудники привыкают к предупреждениям, устают от фишинг-симуляций и действуют по привычному сценарию. После инцидентов часто звучит одна и та же формулировка: «Звонок был очень похож на настоящий».
На этом фоне в России появляются законодательные меры. В Госдуму внесён законопроект о введении уголовной ответственности за создание дипфейков (предлагаемая статья 272.1 УК РФ) — штраф до 300 тыс. рублей или лишение свободы до четырёх лет. Также предлагается учитывать использование дипфейков как отягчающее обстоятельство при совершении преступлений. Синтетические материалы в предвыборной агитации уже запрещены Федеральным законом № 130-ФЗ. Минцифры сформировало рабочую группу по противодействию дипфейкам; обсуждаются маркировка синтетического контента и механизмы подачи жалоб.
Однако даже при наличии законов и технологий уязвимость сохраняется. Человек по-прежнему склонен доверять тому, что видит и слышит, поэтому человеческий фактор остаётся самой слабой точкой.
Типовые сценарии атак на бизнес
Синтетические атаки маскируются под обычные рабочие коммуникации. Злоумышленники комбинируют подмену голоса, видео и переписки с приёмами социальной инженерии. Они используют те же каналы, что и сотрудники: почту, мессенджеры, корпоративные чаты и видеоконференции. На другом конце при этом находится не человек, а сгенерированная копия, которая звучит и выглядит достаточно естественно.
Когда поддельная переписка получает голос и лицо
BEC-атаки (компрометация корпоративной почты) уже не ограничиваются письмами якобы от руководителя. Теперь злоумышленники выстраивают многоступенчатую цепочку, в которой каждое звено усиливает предыдущее.
Сначала приходит письмо с похожего домена — достаточно одной изменённой буквы, чтобы сотрудник не заметил подмену. Затем появляется голосовое сообщение: знакомый голос просит проверить почту или согласовать документ. После этого следует видеозвонок, где на экране виден человек, которого сотрудник знает (руководитель, коллега, партнёр).
Письмо выглядит рабочим, голос совпадает с привычным, а видеосвязь воспринимается как надёжный способ подтверждения личности. В условиях удалённой работы, когда сотрудники редко видят руководителя лично, видеозвонок становится почти безусловным доказательством подлинности — этим и пользуются злоумышленники.
По данным ФБР (IC3, 2025), ущерб от BEC-атак в 2025 году превысил $3 млрд. В России и СНГ 64 % целевых атак начинаются с фишинговых писем. Теперь к тексту добавляются голос и видео, и фильтров почтового шлюза уже недостаточно.
Рисунок 4. Топ-5 видов киберпреступлений и уязвимые возрастные группы (источник: FBI)
Атаки на клиентов, партнёров и цепочки поставок
Дипфейки используют не только против самой компании, но и против её окружения. Компрометация одного контрагента открывает доступ к другим организациям, которые ему доверяют. Поэтому цепочка поставок становится удобной целью.
Ниже — типичные сценарии.
Звонки от имени банка или оператора. Мошенники используют поддельный голос сотрудника и запрашивают данные, которые действительно могут понадобиться в процессе обслуживания: подтверждение операции, реквизиты, код из СМС (при этом реальные сотрудники не запрашивают коды). Формат разговора совпадает с привычным, и человек передаёт информацию, не подозревая подмены. По данным МВД, получив образец голоса, злоумышленники убеждают жертву, что от её имени уже пытались оформить кредит, и переводят разговор в сценарий «спасения средств».
Подделка видеоидентификации при удалённом открытии счетов и прохождении KYC (Know Your Customer, «знай своего клиента»). Клиент показывает лицо в камеру, выполняет инструкции (повернуть голову, моргнуть), а дипфейк подменяет видеопоток ещё до того, как он попадает в систему проверки. Так злоумышленники открывают счета, оформляют кредиты или получают доступ к финансовым сервисам от имени реальных людей. Они комбинируют поддельные документы, генерацию лица в реальном времени и инъекционные атаки, обходя проверки «живости».
Фальшивые кандидаты на работу. Злоумышленники создают дипфейк-персону и проходят первичное интервью по видеосвязи. После собеседования им выдают доступы для тестового задания или подключают к корпоративным сервисам — этого достаточно, чтобы получить точку входа в инфраструктуру компании. Amazon за полтора года заблокировала более 1800 таких соискателей, связанных с Северной Кореей. Gartner прогнозирует, что к 2028 году каждый четвёртый кандидат может оказаться мошенником.
В России Единая биометрическая система объединяет более 70 млн человек, выполнено свыше 100 млн операций. Биометрия защищена проверкой «живого» лица, однако в сценариях удалённой идентификации риск подмены видеопотока сохраняется.
Целевые атаки через видеоконференции
Видеоконференции — удобный канал для дипфейк-атак. Низкое разрешение, агрессивное сжатие и отсутствие полноценной биометрии скрывают артефакты подмены.
Северокорейская группировка Lazarus развернула масштабную кампанию против криптовалютных и финтех-компаний. Злоумышленники взламывали Telegram-аккаунт знакомого жертвы, а затем от его имени приглашали на Zoom-звонок. Ссылка вела на поддельную страницу, где транслировалось дипфейк-видео владельца аккаунта.
Через несколько секунд после начала встречи появлялось сообщение об ошибке и инструкция, как исправить звук. Это классический приём ClickFix. Жертва копирует команду в попытке устранить неисправность и, не осознавая этого, запускает вредоносный PowerShell-скрипт.
Весь процесс — от перехода по ссылке до полного захвата системы — занимал менее пяти минут. Установленная программа похищала криптовалюту, Telegram-сессии, учётные данные браузера и открывала удалённый доступ к устройству. Аналитики выявили более 100 жертв в 20 странах, 45 % из них — руководители компаний.
По данным CertiK, только в апреле 2026 года криптоотрасль потеряла более $600 млн, причём основная часть потерь связана с атаками Lazarus.
Репутационные и шантажные сценарии
Дипфейки используют для давления на людей и подрыва доверия к компаниям. Поддельное видео, на котором человек оказывается в компрометирующей ситуации, становится инструментом манипуляции и шантажа. Даже несовершенная подделка вызывает сильную эмоциональную реакцию: человек видит самого себя и теряет способность критически оценивать происходящее. Эмоциональный шок блокирует рациональное мышление, и жертва готова заплатить, лишь бы видео не попало в открытый доступ.
Летом 2025 года мошенники атаковали генерального директора WPP Марка Рида. Они создали фальшивый аккаунт в WhatsApp, использовали его публичные фотографии и организовали встречу в Microsoft Teams. Голос был клонирован, видео собрано из фрагментов YouTube. На встречу пригласили руководителя одного из агентств группы и попытались убедить его открыть новую компанию, чтобы выманить деньги и получить персональные данные. Схема не сработала: сотрудники вовремя заметили нестыковки и остановили атаку.
По данным исследования «Информзащиты», почти две трети целевых атак на корпоративном уровне направлены на руководителей высшего звена. Чаще всего — в ретейле (26 %), финансах (17 %) и страховании (17 %). Среди наиболее распространённых сценариев атак на топ-менеджеров — компрометация данных через личные устройства (28 %), использование дипфейк-технологий (15 %) и атаки на цепочки поставок (14 %).
Многие инциденты начинаются с нарушений базовой цифровой гигиены со стороны самих топ-менеджеров. Они используют личную почту для рабочих задач, не блокируют устройства и пересылают документы в мессенджерах без шифрования.
По данным Resemble AI, в 2025 году дипфейки, направленные на подрыв репутации и бренда, обеспечили 156,3 млрд медиаохватов. Финансовый ущерб раскрывается лишь примерно в 20 % случаев, однако совокупные потери оцениваются более чем в $1,28 млрд.
Рисунок 5. Охват по типам атак (источник: Resemble AI)
Корпоративный шпионаж, инсайдерские схемы и биржевые манипуляции
Дипфейки используют для получения конфиденциальной информации. Злоумышленник клонирует голос руководителя и просит сотрудника прислать договор, выгрузку по клиентам или отчёт. В России, где мессенджеры стали основным каналом оперативных поручений, короткое голосовое сообщение «скинь файл» не вызывает подозрений.
По данным iProov, 41 % организаций уже сталкивались с дипфейк-атаками на руководителей. Gartner отмечает, что 37 % ИБ-лидеров фиксировали дипфейк-инциденты во время видеозвонков.
К этому же направлению относятся биржевые манипуляции. Одно короткое сообщение от имени генерального директора о пересмотре дивидендов или срыве сделки способно вызвать резкие колебания котировок. В 2025 году акционеры Ostin Technology Group подали иск на $950 млн, утверждая, что поддельные видео и манипуляции с акциями обрушили стоимость компании на 94 % за один день.
Современная дипфейк-атака редко ограничивается одним каналом. Злоумышленники выстраивают цепочку: письмо, голос, видео, давление по срокам. Пока сотрудник не проверяет запрос по независимому каналу, он остаётся уязвим.
Технические методы детектирования
Задача детектора дипфейков — выявить артефакты, возникающие при синтезе голоса или видео.
Анализ аудио. Синтетическую речь выдают спектральные аномалии, избыточно сглаженный сигнал и отсутствие фонового шума, характерного для реальных микрофонов. Однако при телефонных разговорах и VoIP-звонках аудио дополнительно сжимается, артефакты маскируются, и точность детектирования снижается. Поэтому аудиоанализ более надёжен при офлайн-проверке записей, а не в реальном времени.
Анализ видео. Детекторы ищут несоответствия в микродвижениях лица, частоте моргания, отражениях на роговице и неравномерности освещения. Один из методов — анализ фотоплетизмограммы (rPPG): система отслеживает микроизменения цвета кожи, связанные с сердцебиением. У синтетического лица такого кровотока нет. Проблема в том, что при низком качестве видео или небольшом окне видеозвонка эти признаки теряются.
Российские разработки
В России уже есть инструменты, которые помогают выявлять дипфейки. Ниже — примеры.
KodikScan — бесплатный сервис, который проверяет изображения, видео, аудио и текст и определяет, созданы ли они нейросетью. В ряде случаев сервис также показывает модель, которая могла сгенерировать контент.
VisionLabs (LUNA Platform 5) — детектор для видеозвонков и биометрии. По данным разработчика, система распознаёт четыре типа подделок: замену лица, перенос мимики, синтез губ и полностью сгенерированные лица. Технология используется в MTS ID KYC и доступна в системах видеоконференций с 2025 года.
«Контур.Толк» — российский сервис видеосвязи с функцией выявления дипфейков в реальном времени. Он анализирует видеопоток во время звонка и выявляет визуальные несоответствия.
«Алетейя» от «Сбера» — технология для обнаружения дипфейков в видео с несколькими участниками, сложным фоном и меняющимся освещением. Модель обучена на большом массиве реальных и синтетических данных.
«Сипуха» (НИЯУ МИФИ) — нейросеть, которая различает живую речь и синтезированную. Подходит для проверки голосовых сообщений.
DetAFake — стартап с собственным инструментом для выявления дипфейков. Вошёл в топ-100 перспективных российских проектов по версии RB Choice.
Smart Engines «Шерлок 3.0» — система для проверки цифровых документов. Анализирует микротекстуру печатей, голограмм и шрифтов, помогая выявлять поддельные паспорта и удостоверения, созданные с использованием нейросетей.
Почему обнаружение становится всё сложнее
Развитие технологий и появление новых детекторов не упрощают задачу. Основные причины:
- Генераторы развиваются быстрее детекторов. Раньше дипфейки оставляли заметные следы: неровные границы лица, искажения частот, неестественное моргание. Современные модели генерируют кадр целиком и устраняют типичные артефакты. В результате детекторы, обученные на старых наборах данных, теряют до 10–15 % точности на новых типах подделок.
- Детекторы плохо обобщают результаты. Алгоритм, обученный на одном типе дипфейков, часто не распознаёт контент, созданный другой моделью.
- Сжатие видео скрывает признаки синтеза. Мессенджеры и платформы видеосвязи агрессивно сжимают поток, устраняя мелкие дефекты, на которые опираются детекторы. Это снижает точность как на подделках, так и на реальных записях.
- Атаки в реальном времени сложнее анализировать. Записи можно проверять без ограничений по времени и ресурсам, тогда как в онлайне детектор работает с минимальной задержкой и ограниченной вычислительной мощностью. Это увеличивает вероятность ошибок.
- Универсального признака дипфейка не существует. Разные генераторы оставляют разные артефакты, которые можно адаптировать под конкретные методы детектирования.
Детекция — полезный инструмент, но не полноценная защита. Она помогает разбирать инциденты и проверять подозрительные материалы, однако полагаться только на неё, особенно в реальном времени, рискованно.
Что можно сделать уже сейчас: чек‑лист для компании
Нужны простые процессные меры, которые работают независимо от качества видео и голоса.
- Пересмотрите операции, подтверждаемые по голосу или видео, и исключите действия без второго канала.
- Внедрите правило второго канала для всех критичных операций: платежей, смены реквизитов, передачи конфиденциальных данных.
- Включите непрерывную верификацию участников видеовстреч и отслеживайте аномалии: устройства, геолокацию, задержки аудио.
- Обучите сотрудников не доверять голосу руководителя без проверки и действовать строго по процедуре.
- Настройте логирование подозрительных звонков и видеосессий и назначьте ответственного за их разбор.
- Отключите виртуальные камеры на важных встречах и используйте проверяемый видеопоток с корпоративной аутентификацией.
- Проверяйте устройства и IP-адреса участников критичных видеозвонков.
- Записывайте такие сессии и храните их для последующего анализа, интегрировав журналы с SIEM.
Эти меры не требуют значительных затрат, но создают процессный барьер, который блокирует большинство дипфейк-атак.
Выводы
Дипфейки стали реальной угрозой для компаний. Голос и видео больше не являются надёжным подтверждением личности, а привычные каналы связи можно подделать. Переход к генерации в реальном времени и появление сервисов «дипфейк как услуга» сделали атаки быстрыми, убедительными и доступными даже для неквалифицированных злоумышленников.
Защита работает только при сочетании технологий с понятными процессами и дисциплиной. Если злоумышленник может говорить голосом генерального директора и появляться на экране с его лицом, единственным надёжным барьером остаются критическое мышление и простые процедуры проверки.











