VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Microsoft презентовала ИИ-модель, способную преобразовать текст в голос, который ей дали послушать всего 3 секунды. Получается очень похоже на оригинал, к тому же VALL-E (именно так назвали программу) умеет копировать интонации и добавлять естественные шумы. В “широкий прокат” VALL-E не пойдет, пока не придумают антипрограмму, способную распознавать робота.

Исследователи компании анонсировали программу VALL-E, которая синтезирует человеческий голос близко к оригиналу. Название сервиса созвучно известному американскому мультфильму про робота ВАЛЛ-И. Он очищал от мусора заброшенную людьми Землю, потом отправился в космос, вернулся и сумел спасти планету.

Для анализа искусственному интеллекту достаточно всего трехсекундного аудиопримера.

Создатели VALL-E говорят, что придумали программу в помощь приложениям, преобразующим текст в речь, когда нужно отредактировать какой-то отрывок в хорошем качестве. В этом случае программа может сымитировать то, что спикер на самом деле не говорил.

В Microsoft VALL-E называют моделью языка нейронного кода. Она построена на технологии EnCodec, которую корпорация Meta (признана экстремистской и запрещена на территории России) анонсировала в минувшем октябре.

В отличие от других методов преобразования текста в речь, которые обычно используют сигналы, VALL-E генерирует дискретные коды аудиокодеков из текстовых и акустических подсказок. Программа анализирует, как “звучит” человек, разбивает эту информацию на отдельные компоненты (“токены”) и учится на этих данных.

“Чтобы синтезировать речь, VALL-E генерирует соответствующие акустические маркеры, взятые из трехсекундного аудиопримера, а также использует фонетические подсказки, которые мог бы использовать человек, если бы отрывок длился дольше, — говорится в анонсе Microsoft. — Сгенерированные акустические маркеры используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека”.

Microsoft уже натренировала VALL-E на тысячах аудиокниг на английском языке. На странице сервиса можно прослушать трехсекундный образец, оригинал и речь от VALL-E.

Некоторые примеры всё ещё напоминают роботизированный голос, но есть и очень похожие на заданную человеческую речь.

Кроме того, VALL-E способна воспроизводить акустическое окружение. Например, синтезировать речь, как будто она звучит из телефонной трубки.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей.

“Так как VALL-E может синтезировать речь, сохраняющую идентичность спикера, программа может нести потенциальные риски неправильного использования модели”, — признают создатели. Речь идет о подмене голосовой идентификации или выдаче себя за другого человека.

Риски снизит модель, позволяющая найти отличия и определить, был ли аудиоклип синтезирован VALL-E.

Американские ученые в сентябре предложили выявлять голосовые дипфейки с помощью флюидодинамики. В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный детектор способен определить подмену с точностью 92,4%.

Добавим, в ноябре Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи, а аналитики Сбера внесли Deepfake в одну из самых опасных технологий, способных угрожать кибербезопасности в перспективе ближайших пяти лет.

Каждая седьмая дорожная ловушка в России связана со сбоями в работе камер

Как показала статистика Общественной палаты, собранная за четыре года, 14% всех дорожных ловушек связаны с некорректной работой средств фотовидеофиксации. Всего же количество участков, где дорожная обстановка провоцирует водителей на вынужденные нарушения, достигло 1969.

Такую статистику приводит ТАСС со ссылкой на проект Общественной палаты «Дорожные ловушки». Всего за четыре года работы проекта была собрана информация о 1969 таких участках.

Более трети жалоб — почти 35% — приходится на Москву. В тройку лидеров также вошли Санкт-Петербург, где обнаружили 179 ловушек (9,1% обращений), и Московская область со 164 проблемными участками (8,3%).

«По состоянию на 21 марта текущего года в адрес проекта поступило 1969 сообщений. При этом больше всего — 576 дорожных ловушек — было обнаружено на начальном этапе реализации проекта в 2022 году. После значительного спада в 2023-м, когда была выявлена лишь 321 ловушка, их количество вновь начало расти и в 2025-м поднялось до 535. С начала 2026 года зафиксировано 59 ловушек», — приводит агентство сообщение пресс-службы Общественной палаты.

Сбои камер, связанные с неверным определением скорости автомобилей, заняли третье место среди проблем, с которыми сталкиваются водители на таких участках: на них приходится 14% случаев. Они лишь немного уступили неочевидной или плохо различимой разметке, доля которой составила 14,7%. Безоговорочным лидером остаются участки с проблемами остановки или парковки — на них приходится почти половина всех «дорожных ловушек».

«Иногда дорожная ловушка — это незначительная дорожная ситуация, какая-то мелочь, которую легко устранить, а проблем она создаёт много: где-то некорректный знак, где-то не хватает разметки или ещё что-то. Ценность проекта в том, что он помогает устранять такие, казалось бы, незначительные погрешности в организации дорожного движения, которые причиняют неудобства автомобилистам, приводя к штрафам, а то и к лишению прав», — прокомментировал итоги работы инициатор проекта, заместитель председателя комиссии Общественной палаты по безопасности и взаимодействию с ОНК Александр Холодов.

Также известны случаи, когда камеры «путали» людей. Одному из пострадавших от такой ошибки даже советовали не попадать в поле зрения камер городского видеонаблюдения до задержания настоящего правонарушителя, находившегося в розыске.

RSS: Новости на портале Anti-Malware.ru