Ученые предложили выявлять голосовые дипфейки с помощью флюидодинамики

Ученые предложили выявлять голосовые дипфейки с помощью флюидодинамики

Ученые предложили выявлять голосовые дипфейки с помощью флюидодинамики

В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный в ходе исследования детектор способен по одной фразе определить подмену с точностью 92,4%.

Создание дипфейков стало возможным лишь с развитием технологий машинного обучения. Новый инструментарий, позволяющий создавать убедительные имитации, уже по достоинству оценили злоумышленники: собрав ПДн из открытых источников, они проводят пробные атаки, в том числе для получения финансовой выгоды.

Инциденты с использованием дипфейков снижают доверие к цифровым средствам коммуникации, но пока редки. Тем не менее, новую угрозу нельзя сбрасывать со счетов, и эксперты озаботились совершенствованием средств подтверждения личности.

Выявить поддельное видео, созданное с помощью ИИ, можно путем анализа визуальных артефактов — по разнице в мимике (частоте моргания, например) или различию приметных частей лица (подбородка, бровей, скул, усов и бороды, веснушек, родимых пятен). Качественный синтез речи, используемый с неблаговидной целью, представляет более серьезную угрозу, так как дистанционное общение зачастую происходит только вербально — по телефону, с использованием радиосвязи или аудиозаписи.

Защититься от таких высокотехнологичных атак, по мнению ученых из Флориды, можно с помощью газодинамики — оценкой речевого тракта говорящего, который можно воссоздать средствами моделирования. Дело в том, что на человеческую речь влияют анатомические особенности его голосового аппарата: связок, языка, челюстей, губ. При генерации звуков (фонем) эти участники процесса используются по-разному, но всегда в пределах лимитов, заданных природой.

Исследование показало, что звуковые дипфейки не учитывают такие ограничения. Более того, при реконструкции речевого тракта они показали схожие результаты, далекие от реальности:

 

Способность современного противника ответить на этот вызов университетские исследователи оценили как близкую к нулю. О своем методе выявления дипфейк-аудио они рассказали (PDF) в прошлом месяце на конференции USENIX по безопасности, которая прошла в Бостоне. Созданный в ходе исследования программный код выложен в общий доступ на GitHub.

Более трех четвертей россиян не отличают нейросетевой контент от реального

Согласно исследованию агентств Spektr и СКОТЧ, 77% участников не смогли отличить изображения, созданные нейросетями, от реальных фотографий. В опросе приняли участие около 1000 человек. Респондентам в случайном порядке показывали пять изображений, из которых четыре были сгенерированы ИИ, а одно — подлинное.

Результаты исследования приводит РБК. Корректно определить сгенерированные изображения смогли лишь 23% опрошенных.

При этом в более молодых возрастных группах показатели оказались выше. Среди респондентов до 30 лет правильный ответ дали 30%, в группе 31–44 года — 25%.

В числе признаков «настоящего» фото участники называли убедительные детали, реалистичные свет и тени, а также естественную улыбку человека в кадре. Например, изображение с улыбающимся мужчиной чаще других считали реальным участники в возрасте 45–60 лет — 28% из них выбрали именно этот вариант.

Примечательно, что доля тех, кто ошибается при определении ИИ-контента, растёт. Согласно результатам исследования MWS, опубликованным летом 2025 года, правильно распознать сгенерированные изображения смогли более трети респондентов.

RSS: Новости на портале Anti-Malware.ru