VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Microsoft презентовала ИИ-модель, способную преобразовать текст в голос, который ей дали послушать всего 3 секунды. Получается очень похоже на оригинал, к тому же VALL-E (именно так назвали программу) умеет копировать интонации и добавлять естественные шумы. В “широкий прокат” VALL-E не пойдет, пока не придумают антипрограмму, способную распознавать робота.

Исследователи компании анонсировали программу VALL-E, которая синтезирует человеческий голос близко к оригиналу. Название сервиса созвучно известному американскому мультфильму про робота ВАЛЛ-И. Он очищал от мусора заброшенную людьми Землю, потом отправился в космос, вернулся и сумел спасти планету.

Для анализа искусственному интеллекту достаточно всего трехсекундного аудиопримера.

Создатели VALL-E говорят, что придумали программу в помощь приложениям, преобразующим текст в речь, когда нужно отредактировать какой-то отрывок в хорошем качестве. В этом случае программа может сымитировать то, что спикер на самом деле не говорил.

В Microsoft VALL-E называют моделью языка нейронного кода. Она построена на технологии EnCodec, которую корпорация Meta (признана экстремистской и запрещена на территории России) анонсировала в минувшем октябре.

В отличие от других методов преобразования текста в речь, которые обычно используют сигналы, VALL-E генерирует дискретные коды аудиокодеков из текстовых и акустических подсказок. Программа анализирует, как “звучит” человек, разбивает эту информацию на отдельные компоненты (“токены”) и учится на этих данных.

“Чтобы синтезировать речь, VALL-E генерирует соответствующие акустические маркеры, взятые из трехсекундного аудиопримера, а также использует фонетические подсказки, которые мог бы использовать человек, если бы отрывок длился дольше, — говорится в анонсе Microsoft. — Сгенерированные акустические маркеры используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека”.

Microsoft уже натренировала VALL-E на тысячах аудиокниг на английском языке. На странице сервиса можно прослушать трехсекундный образец, оригинал и речь от VALL-E.

Некоторые примеры всё ещё напоминают роботизированный голос, но есть и очень похожие на заданную человеческую речь.

Кроме того, VALL-E способна воспроизводить акустическое окружение. Например, синтезировать речь, как будто она звучит из телефонной трубки.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей.

“Так как VALL-E может синтезировать речь, сохраняющую идентичность спикера, программа может нести потенциальные риски неправильного использования модели”, — признают создатели. Речь идет о подмене голосовой идентификации или выдаче себя за другого человека.

Риски снизит модель, позволяющая найти отличия и определить, был ли аудиоклип синтезирован VALL-E.

Американские ученые в сентябре предложили выявлять голосовые дипфейки с помощью флюидодинамики. В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный детектор способен определить подмену с точностью 92,4%.

Добавим, в ноябре Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи, а аналитики Сбера внесли Deepfake в одну из самых опасных технологий, способных угрожать кибербезопасности в перспективе ближайших пяти лет.

Миллионы пользователей браузеров стали жертвами расширений-шпионов

Исследователи из Koi Security рассказали о масштабной кампании с использованием расширений для браузеров, за которой, по их оценке, стоит китайская кибергруппа. Новая операция получила название DarkSpectre и затронула около 2,2 млн пользователей Chrome, Edge и Firefox.

Если учитывать более ранние кампании той же группы — ShadyPanda и GhostPoster, — общее число пострадавших превышает 8,8 млн человек за последние семь лет.

Ранее Koi уже связывала DarkSpectre с ShadyPanda — серией расширений, маскировавшихся под полезные инструменты и занимавшихся кражей данных, подменой поисковых запросов и мошенничеством. Тогда речь шла о 5,6 млн пользователей, включая более 100 расширений, часть из которых «просыпалась» только спустя годы после публикации.

Одно из таких расширений для Edge, например, активировало скрытую логику лишь через три дня после установки — очевидно, чтобы спокойно пройти модерацию в магазине. При этом исследователи обнаружили десятки так называемых «спящих» аддонов: сейчас они ведут себя безобидно, набирают аудиторию и положительные отзывы, но могут получить опасные функции с очередным обновлением.

Вторая кампания, GhostPoster, была в основном нацелена на пользователей Firefox. Под видом утилит и VPN-расширений они внедряли JavaScript-код для подмены партнёрских ссылок, трекинга и рекламных махинаций. Среди находок есть даже расширение «Google Translate» для Opera, набравшее практически миллион установок.

Самая свежая и, пожалуй, самая тревожная часть истории — так называемый Zoom Stealer. Это набор из 18 расширений для Chrome, Edge и Firefox, замаскированных под инструменты для Zoom, Google Meet и GoToWebinar. Их задача — собирать корпоративную информацию: ссылки на встречи (включая пароли), ID конференций, темы, описания, расписание и статус регистрации. Данные передаются в реальном времени через WebSocket-соединения.

Причём на этом сбор не заканчивается. Расширения вытягивают сведения о спикерах и организаторах вебинаров — имена, должности, биографии, фотографии, названия компаний, логотипы и рекламные материалы. Всё это происходит каждый раз, когда пользователь просто заходит на страницу регистрации мероприятия.

По словам исследователей, эти дополнения запрашивают доступ сразу к 28 платформам видеосвязи, включая Zoom, Microsoft Teams, Cisco WebEx и Google Meet — даже если расширению такой доступ вообще не нужен.

 

«Это не потребительское мошенничество, а инфраструктура корпоративного шпионажа, — подчёркивают специалисты Koi Security. — Пользователи действительно получали обещанную функциональность, доверяли расширениям и ставили им высокие оценки. А наблюдение шло тихо и незаметно».

Собранные данные могут использоваться для шпионажа, сложных схем социальной инженерии и масштабных операций по подмене личности. Связь кампаний с Китаем исследователи подтверждают сразу несколькими признаками: использованием серверов Alibaba Cloud, регистрациями в китайских провинциях, фрагментами кода с китайскими комментариями и мошенническими схемами, ориентированными на JD.com и Taobao.

В Koi Security считают, что это далеко не конец истории. По их словам, у DarkSpectre могут уже быть новые расширения, которые пока выглядят полностью легитимными — они «копят доверие» и просто ждут своего часа.

RSS: Новости на портале Anti-Malware.ru