Ученые предложили выявлять голосовые дипфейки с помощью флюидодинамики

Ученые предложили выявлять голосовые дипфейки с помощью флюидодинамики

Ученые предложили выявлять голосовые дипфейки с помощью флюидодинамики

В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный в ходе исследования детектор способен по одной фразе определить подмену с точностью 92,4%.

Создание дипфейков стало возможным лишь с развитием технологий машинного обучения. Новый инструментарий, позволяющий создавать убедительные имитации, уже по достоинству оценили злоумышленники: собрав ПДн из открытых источников, они проводят пробные атаки, в том числе для получения финансовой выгоды.

Инциденты с использованием дипфейков снижают доверие к цифровым средствам коммуникации, но пока редки. Тем не менее, новую угрозу нельзя сбрасывать со счетов, и эксперты озаботились совершенствованием средств подтверждения личности.

Выявить поддельное видео, созданное с помощью ИИ, можно путем анализа визуальных артефактов — по разнице в мимике (частоте моргания, например) или различию приметных частей лица (подбородка, бровей, скул, усов и бороды, веснушек, родимых пятен). Качественный синтез речи, используемый с неблаговидной целью, представляет более серьезную угрозу, так как дистанционное общение зачастую происходит только вербально — по телефону, с использованием радиосвязи или аудиозаписи.

Защититься от таких высокотехнологичных атак, по мнению ученых из Флориды, можно с помощью газодинамики — оценкой речевого тракта говорящего, который можно воссоздать средствами моделирования. Дело в том, что на человеческую речь влияют анатомические особенности его голосового аппарата: связок, языка, челюстей, губ. При генерации звуков (фонем) эти участники процесса используются по-разному, но всегда в пределах лимитов, заданных природой.

Исследование показало, что звуковые дипфейки не учитывают такие ограничения. Более того, при реконструкции речевого тракта они показали схожие результаты, далекие от реальности:

 

Способность современного противника ответить на этот вызов университетские исследователи оценили как близкую к нулю. О своем методе выявления дипфейк-аудио они рассказали (PDF) в прошлом месяце на конференции USENIX по безопасности, которая прошла в Бостоне. Созданный в ходе исследования программный код выложен в общий доступ на GitHub.

ИИ написал эмулятор NES: Donkey Kong запустили прямо в браузере

Разработчик-энтузиаст Родриго Делдука решил проверить, на что на самом деле способен ИИ в «настоящем» программировании — и добился неожиданного результата. Он сумел заставить Claude сгенерировать рабочий эмулятор NES, пусть и с оговорками. Причём не просто абстрактный код, а вполне функциональный проект, на котором можно запустить, например, Donkey Kong прямо в браузере.

Эмулятор был создан в виде набора Lua-скриптов, которые работают поверх собственного 2D-движка Делдуки — Carimbo.

ИИ сгенерировал отдельные модули для процессора NES, графического чипа (PPU), ввода, шины данных и других компонентов. Всё это действительно «оживает» и взаимодействует между собой так, как должен работать настоящий эмулятор.

NES — одна из самых популярных платформ для эмуляции — консоль старая, картриджная и относительно простая по архитектуре, поэтому её часто используют как учебный пример или тестовую площадку для новых технологий. Но даже на этом фоне задача написать эмулятор — это уже не «крестики-нолики» и не Minesweeper. Тут важны точный тайминг, синхронизация компонентов и корректная эмуляция железа.

 

Исходники проекта Делдука выложил на GitHub, и по ним хорошо видно, насколько всё это сложно даже в минимальной реализации. Названия файлов говорят сами за себя: CPU, PPU, Input, Bus — каждый элемент NES вынесен в отдельный скрипт, и все они должны работать как единый механизм.

Важную роль здесь играет Lua — лёгкий, быстрый и встраиваемый язык с открытой лицензией MIT, который Claude умеет генерировать без особых проблем. А движок Carimbo, написанный на C++23 и использующий SDL, изначально поддерживает Lua-скрипты и умеет работать не только на десктопе, но и на мобильных платформах и в браузере через WebAssembly.

Правда, без ложки дёгтя не обошлось. По словам самого автора и отзывам пользователей, эмулятор получился медленным. В комментариях кто-то иронично заметил, что «цена ИИ-кода» — это падение производительности в 40 раз по сравнению с другими браузерными NES-эмуляторами, да ещё и без звука. Для контраста Делдука вспоминает, как в конце 1990-х играл в NESticle на Pentium 120 — и всё летало.

Тем не менее сам факт остаётся впечатляющим: ИИ смог собрать сложную систему, а не просто игрушечный пример. Да, это не замена ручной разработке и не промышленное качество, но как эксперимент — результат более чем показательный.

Протестировать всё это добро можно здесь, поиграв в Donkey Kong.

RSS: Новости на портале Anti-Malware.ru