VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Microsoft презентовала ИИ-модель, способную преобразовать текст в голос, который ей дали послушать всего 3 секунды. Получается очень похоже на оригинал, к тому же VALL-E (именно так назвали программу) умеет копировать интонации и добавлять естественные шумы. В “широкий прокат” VALL-E не пойдет, пока не придумают антипрограмму, способную распознавать робота.

Исследователи компании анонсировали программу VALL-E, которая синтезирует человеческий голос близко к оригиналу. Название сервиса созвучно известному американскому мультфильму про робота ВАЛЛ-И. Он очищал от мусора заброшенную людьми Землю, потом отправился в космос, вернулся и сумел спасти планету.

Для анализа искусственному интеллекту достаточно всего трехсекундного аудиопримера.

Создатели VALL-E говорят, что придумали программу в помощь приложениям, преобразующим текст в речь, когда нужно отредактировать какой-то отрывок в хорошем качестве. В этом случае программа может сымитировать то, что спикер на самом деле не говорил.

В Microsoft VALL-E называют моделью языка нейронного кода. Она построена на технологии EnCodec, которую корпорация Meta (признана экстремистской и запрещена на территории России) анонсировала в минувшем октябре.

В отличие от других методов преобразования текста в речь, которые обычно используют сигналы, VALL-E генерирует дискретные коды аудиокодеков из текстовых и акустических подсказок. Программа анализирует, как “звучит” человек, разбивает эту информацию на отдельные компоненты (“токены”) и учится на этих данных.

“Чтобы синтезировать речь, VALL-E генерирует соответствующие акустические маркеры, взятые из трехсекундного аудиопримера, а также использует фонетические подсказки, которые мог бы использовать человек, если бы отрывок длился дольше, — говорится в анонсе Microsoft. — Сгенерированные акустические маркеры используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека”.

Microsoft уже натренировала VALL-E на тысячах аудиокниг на английском языке. На странице сервиса можно прослушать трехсекундный образец, оригинал и речь от VALL-E.

Некоторые примеры всё ещё напоминают роботизированный голос, но есть и очень похожие на заданную человеческую речь.

Кроме того, VALL-E способна воспроизводить акустическое окружение. Например, синтезировать речь, как будто она звучит из телефонной трубки.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей.

“Так как VALL-E может синтезировать речь, сохраняющую идентичность спикера, программа может нести потенциальные риски неправильного использования модели”, — признают создатели. Речь идет о подмене голосовой идентификации или выдаче себя за другого человека.

Риски снизит модель, позволяющая найти отличия и определить, был ли аудиоклип синтезирован VALL-E.

Американские ученые в сентябре предложили выявлять голосовые дипфейки с помощью флюидодинамики. В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный детектор способен определить подмену с точностью 92,4%.

Добавим, в ноябре Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи, а аналитики Сбера внесли Deepfake в одну из самых опасных технологий, способных угрожать кибербезопасности в перспективе ближайших пяти лет.

Телегу заподозрили в перехвате трафика и скрытой модерации

Сторонний клиент Telegram под названием «Телега», который в последние недели стал быстро набирать популярность на фоне проблем с доступом к Telegram в России, оказался в центре нового скандала. Группа анонимных исследователей заявила, что приложение якобы использует схему «Человек посередине» и может вмешиваться в трафик между пользователем и серверами Telegram.

Суть претензии такая: «Телега», по версии авторов анализа, работает не как обычный клиент Telegram, который напрямую подключается к дата-центрам мессенджера, а как промежуточное звено.

Исследователи утверждают, что приложение сначала получает с собственного API список серверов, которые подменяют стандартные адреса Telegram, а затем перенастраивает подключение клиента на инфраструктуру «Телеги».

На этом подозрения не заканчиваются. По данным анализа APK-файла и нативной библиотеки клиента, в «Телеге» якобы встроен дополнительный RSA-публичный ключ, которого нет в официальном клиенте Telegram. Исследователи утверждают, что этот ключ принимают серверы «Телеги», но не серверы самого Telegram. Из этого они делают вывод, что приложение потенциально способно перехватывать первичное рукопожатие MTProto, а значит — оказываться «посередине» между пользователем и настоящим сервером мессенджера.

 

Именно такой сценарий теоретически открывает дорогу к классической MITM-схеме: договориться с клиентом об одном ключе шифрования, с Telegram — о другом, а весь трафик между ними просматривать, сохранять или даже изменять. Независимого публичного подтверждения того, что это действительно происходило в реальной эксплуатации, на данный момент нет, но сама архитектура вызвала у исследователей серьёзные вопросы.

Отдельно в анализе упоминается ещё один тревожный момент: в «Телега», как утверждается, по умолчанию отключена Perfect Forward Secrecy. В обычном Telegram этот механизм нужен затем, чтобы даже в случае компрометации одного ключа нельзя было расшифровать старую переписку. Здесь же, по версии авторов разбора, использование PFS может управляться удалённо через конфиг с серверов «Телега».

 

Ещё одна претензия касается секретных чатов. Исследователи утверждают, что в клиенте они фактически отключены удалённым флагом и входящие запросы на секретный чат могут просто игнорироваться. То есть пользователь может даже не узнать, что кто-то пытался начать с ним зашифрованный сквозным шифрованием диалог.

Кроме того, в приложении нашли и признаки собственной системы модерации и фильтрации. По данным анализа, «Телега» может обращаться к отдельному API, чтобы проверять пользователей, каналы, чаты и ботов по внутреннему «чёрному списку». Если объект попадает под фильтр, клиент показывает заглушку о недоступности материала, причём внешне это может выглядеть так, будто ограничение наложила сама платформа.

Дополнительный резонанс вызвали найденные на поддоменах «Телега» тестовые стенды с названиями Zeus и Cerberus. Авторы анализа связывают их с системой обработки запросов на блокировку контента и оперативной модерацией сообщений, в том числе с ИИ-анализом, автоудалением и автобаном. Но здесь тоже важно оговориться: речь идёт именно о найденных тестовых панелях, а не о доказанном использовании всех этих инструментов в боевой среде.

Напомним, сегодня мы также писали, что команда мессенджера «Телега» прокомментировала обсуждение вокруг происхождения приложения и его технологической базы. Поводом стали публикации, в которых поднимались вопросы о возможной связи сервиса со структурами VK.

RSS: Новости на портале Anti-Malware.ru