VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Олеся Афанасьева 10 Января 2023 - 14:02

...

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Microsoft презентовала ИИ-модель, способную преобразовать текст в голос, который ей дали послушать всего 3 секунды. Получается очень похоже на оригинал, к тому же VALL-E (именно так назвали программу) умеет копировать интонации и добавлять естественные шумы. В “широкий прокат” VALL-E не пойдет, пока не придумают антипрограмму, способную распознавать робота.

Исследователи компании анонсировали программу VALL-E, которая синтезирует человеческий голос близко к оригиналу. Название сервиса созвучно известному американскому мультфильму про робота ВАЛЛ-И. Он очищал от мусора заброшенную людьми Землю, потом отправился в космос, вернулся и сумел спасти планету.

Для анализа искусственному интеллекту достаточно всего трехсекундного аудиопримера.

Создатели VALL-E говорят, что придумали программу в помощь приложениям, преобразующим текст в речь, когда нужно отредактировать какой-то отрывок в хорошем качестве. В этом случае программа может сымитировать то, что спикер на самом деле не говорил.

В Microsoft VALL-E называют моделью языка нейронного кода. Она построена на технологии EnCodec, которую корпорация Meta (признана экстремистской и запрещена на территории России) анонсировала в минувшем октябре.

В отличие от других методов преобразования текста в речь, которые обычно используют сигналы, VALL-E генерирует дискретные коды аудиокодеков из текстовых и акустических подсказок. Программа анализирует, как “звучит” человек, разбивает эту информацию на отдельные компоненты (“токены”) и учится на этих данных.

“Чтобы синтезировать речь, VALL-E генерирует соответствующие акустические маркеры, взятые из трехсекундного аудиопримера, а также использует фонетические подсказки, которые мог бы использовать человек, если бы отрывок длился дольше, — говорится в анонсе Microsoft. — Сгенерированные акустические маркеры используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека”.

Microsoft уже натренировала VALL-E на тысячах аудиокниг на английском языке. На странице сервиса можно прослушать трехсекундный образец, оригинал и речь от VALL-E.

Некоторые примеры всё ещё напоминают роботизированный голос, но есть и очень похожие на заданную человеческую речь.

Кроме того, VALL-E способна воспроизводить акустическое окружение. Например, синтезировать речь, как будто она звучит из телефонной трубки.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей.

“Так как VALL-E может синтезировать речь, сохраняющую идентичность спикера, программа может нести потенциальные риски неправильного использования модели”, — признают создатели. Речь идет о подмене голосовой идентификации или выдаче себя за другого человека.

Риски снизит модель, позволяющая найти отличия и определить, был ли аудиоклип синтезирован VALL-E.

Американские ученые в сентябре предложили выявлять голосовые дипфейки с помощью флюидодинамики. В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный детектор способен определить подмену с точностью 92,4%.

Добавим, в ноябре Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи, а аналитики Сбера внесли Deepfake в одну из самых опасных технологий, способных угрожать кибербезопасности в перспективе ближайших пяти лет.

Следующая главная новость »

Контейнеризация 2026: чем российские решения отличаются на практике? Регистрируйтесь на эфир!

Екатерина Быстрова 20 Февраля 2026 - 19:13

Уязвимости программ Утечки информации Умышленные утечки информации Кража данных Домашние пользователи Корпорации

Утечка в PayPal: персональные данные были открыты почти 6 месяцев

PayPal уведомляет клиентов о новой утечке данных, на этот раз из-за программной ошибки в приложении для бизнес-кредитов PayPal Working Capital (PPWC). В течение почти шести месяцев персональные данные пользователей могли быть доступны посторонним.

По информации компании, инцидент затронул приложение PPWC, которое позволяет малому бизнесу быстро получать финансирование.

Проблему обнаружили 12 декабря 2025 года. Выяснилось, что с 1 июля по 13 декабря 2025 года из-за некорректного изменения кода часть персональных данных оказалась открыта для неаутентифицированных лиц.

Речь идёт о конфиденциальной информации: имена, адреса электронной почты, номера телефонов, адреса компаний, номера социального страхования, а также даты рождения.

В письмах пострадавшим пользователям PayPal уточняет, что после обнаружения ошибки код был оперативно отозван, а потенциальный доступ к данным заблокирован уже на следующий день. Корпорация также подчеркнула, что уведомление не откладывалось из-за каких-либо действий правоохранительных органов.

Кроме самой утечки, PayPal выявила и несанкционированные транзакции по счетам небольшой части клиентов, они напрямую связаны с этим инцидентом. Представители платёжного сервиса заявили, что пострадавшим уже оформлены возвраты средств.

В качестве компенсации пользователям предлагают два года бесплатного мониторинга кредитной истории и услуг по восстановлению личности через Equifax (по трём кредитным бюро). Подключиться к программе нужно до 30 июня 2026 года.

Клиентам также рекомендуют внимательно следить за кредитными отчётами и активностью по счетам. Отдельно PayPal напомнила, что никогда не запрашивает пароли, одноразовые коды или другие данные аутентификации по телефону, СМС или электронной почте.

Сколько именно пользователей пострадало, компания пока не раскрывает. Известно, что для всех затронутых аккаунтов были сброшены пароли — при следующем входе пользователям предложат создать новые учётные данные, если они ещё этого не сделали.

Контейнеризация 2026: чем российские решения отличаются на практике? Регистрируйтесь на эфир!