VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Microsoft презентовала ИИ-модель, способную преобразовать текст в голос, который ей дали послушать всего 3 секунды. Получается очень похоже на оригинал, к тому же VALL-E (именно так назвали программу) умеет копировать интонации и добавлять естественные шумы. В “широкий прокат” VALL-E не пойдет, пока не придумают антипрограмму, способную распознавать робота.

Исследователи компании анонсировали программу VALL-E, которая синтезирует человеческий голос близко к оригиналу. Название сервиса созвучно известному американскому мультфильму про робота ВАЛЛ-И. Он очищал от мусора заброшенную людьми Землю, потом отправился в космос, вернулся и сумел спасти планету.

Для анализа искусственному интеллекту достаточно всего трехсекундного аудиопримера.

Создатели VALL-E говорят, что придумали программу в помощь приложениям, преобразующим текст в речь, когда нужно отредактировать какой-то отрывок в хорошем качестве. В этом случае программа может сымитировать то, что спикер на самом деле не говорил.

В Microsoft VALL-E называют моделью языка нейронного кода. Она построена на технологии EnCodec, которую корпорация Meta (признана экстремистской и запрещена на территории России) анонсировала в минувшем октябре.

В отличие от других методов преобразования текста в речь, которые обычно используют сигналы, VALL-E генерирует дискретные коды аудиокодеков из текстовых и акустических подсказок. Программа анализирует, как “звучит” человек, разбивает эту информацию на отдельные компоненты (“токены”) и учится на этих данных.

“Чтобы синтезировать речь, VALL-E генерирует соответствующие акустические маркеры, взятые из трехсекундного аудиопримера, а также использует фонетические подсказки, которые мог бы использовать человек, если бы отрывок длился дольше, — говорится в анонсе Microsoft. — Сгенерированные акустические маркеры используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека”.

Microsoft уже натренировала VALL-E на тысячах аудиокниг на английском языке. На странице сервиса можно прослушать трехсекундный образец, оригинал и речь от VALL-E.

Некоторые примеры всё ещё напоминают роботизированный голос, но есть и очень похожие на заданную человеческую речь.

Кроме того, VALL-E способна воспроизводить акустическое окружение. Например, синтезировать речь, как будто она звучит из телефонной трубки.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей.

“Так как VALL-E может синтезировать речь, сохраняющую идентичность спикера, программа может нести потенциальные риски неправильного использования модели”, — признают создатели. Речь идет о подмене голосовой идентификации или выдаче себя за другого человека.

Риски снизит модель, позволяющая найти отличия и определить, был ли аудиоклип синтезирован VALL-E.

Американские ученые в сентябре предложили выявлять голосовые дипфейки с помощью флюидодинамики. В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный детектор способен определить подмену с точностью 92,4%.

Добавим, в ноябре Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи, а аналитики Сбера внесли Deepfake в одну из самых опасных технологий, способных угрожать кибербезопасности в перспективе ближайших пяти лет.

Обычные VPN в России могут не дожить до конца 2026 года

Классические коммерческие VPN-сервисы, к которым привыкли обычные пользователи, видимо, переживают не лучшие времена. Те самые приложения, где достаточно нажать одну кнопку на смартфоне и спокойно зайти на нужный сайт, по прогнозу основателя INSYTE Electronics Сергея Грибанова, могут фактически исчезнуть уже в ближайшие месяцы.

В разговоре с «Газетой.Ru» он заявил, что сейчас на магистральных каналах и узлах провайдеров идёт уже не точечная борьба с отдельными ресурсами, а куда более масштабная зачистка всего обходного трафика.

По словам Грибанова, раньше системы DPI и ТСПУ у провайдеров в основном работали по относительно простой схеме: видели запрещённый домен или IP-адрес — обрывали соединение. VPN долгое время позволяли обходить такие ограничения, потому что внутри зашифрованного туннеля провайдер просто не видел, куда именно идёт пользователь.

Но теперь, как утверждает эксперт, проблема для популярных VPN в другом. Протоколы вроде OpenVPN, IPsec или классического WireGuard слишком узнаваемы. Они создавались для защищённых корпоративных соединений, а не для того, чтобы прятаться от государственного контроля. И современным системам фильтрации уже не нужно понимать, какой именно сайт открывает человек, достаточно распознать сам «почерк» VPN-протокола, чтобы разорвать соединение.

На смену привычным VPN, считает Грибанов, уже приходит другая логика — не просто шифрование, а мимикрия. По его словам, технически подкованные пользователи и энтузиасты всё чаще переходят на современные прокси-протоколы вроде VLESS, Shadowsocks-2022 и Trojan. Их задача не только скрыть данные, но и замаскировать сам факт существования туннеля под обычный HTTPS-трафик.

Для системы фильтрации такое соединение может выглядеть так, будто пользователь просто зашёл на обычный сайт, обновляет Windows или открывает интернет-магазин, хотя на деле трафик идёт совсем по другому маршруту.

Эксперт также утверждает, что такие механизмы уже сейчас позволяют обходить ограничения без серьёзной потери скорости, тогда как, например, Tor с мостами остаётся скорее нишевым вариантом: он работает, но для повседневного тяжёлого трафика вроде видео подходит хуже.

При этом полностью перекрыть все способы обхода блокировок, по мнению Грибанова, технически почти нереально. Для этого системам DPI пришлось бы перейти от чтения заголовков к гораздо более тяжёлому анализу — разбирать структуру трафика, тайминги, степень случайности данных и даже активно проверять удалённые серверы, притворяясь обычным клиентом. А это уже огромная вычислительная нагрузка и крайне дорогая инфраструктурная задача.

Если его прогноз сбудется, к концу 2026 года рынок массовых VPN для обычного пользователя может серьёзно измениться. Людей, по его словам, просто вымотают постоянные поиски рабочего приложения, обрывы связи и падение скорости. В результате большинство смирится с новой реальностью, а более технически грамотная часть аудитории уйдёт в самостоятельную настройку личных зарубежных серверов и скрытых узлов связи для себя, семьи и друзей.

Напомним, сегодня прошла информация об ограничении пользователей с VPN со стороны российских маркетплейсов.

RSS: Новости на портале Anti-Malware.ru