ИИ помог ученым извлечь звук из фото и немого видео

Татьяна Никитина 27 Сентября 2023 - 15:22

...

ИИ помог ученым извлечь звук из фото и немого видео

Метод, разработанный университетскими исследователями, позволяет получать аудиоданные из фотографий и видео, снятого с выключенным микрофоном. Созданный учеными ИИ-инструмент способен даже определить пол комментатора, созерцавшего фотосессию.

Концепция, нареченная Side Eye, предполагает использование стабилизатора изображения и механизма скользящего затвора, присутствующих во встроенных камерах многих современных телефонов. Созданный в ходе исследования инструмент использует средства машинного обучения, и его можно натренировать на аудиозаписях с тем, чтобы он научился распознавать часто употребляемые слова — например, «да» и «нет».

«Представьте себе, что кто-то снимает для TikTok видео, отключив звук, чтобы наложить музыку, — говорит профессор Кевин Фу (Kevin Fu) из Северо-Восточного университета в Бостоне. — А вдруг кому-нибудь захочется узнать, что сказал герой ролика? Вспомнил детский стишок про арбуз или выдал свой пароль? И о чем это шушукаются за его спиной? Все это можно выяснить».

Оказалось, что разговор рядом с объективом камеры вызывает слабые вибрации в стабилизаторе, компенсирующем дрожание рук при съемке. Угол света при этом почти незаметно изменяется.

Извлечь звуковую частоту из этих микровибраций трудно, однако задачу исследователям облегчил эффект скользящего затвора — когда сканирование пикселей происходит построчно, за сотни тысяч прогонов для каждого изображения. Это открывает возможность для детализации изменений, вызванных речью фотографа, его модели или наблюдателя.

По словам исследователей, Side Eye исправно работает даже с материалами, отснятыми при плохом освещении. Не смущают его и неудачные снимки вроде потолка во весь кадр, однако чем больше отображаемой информации, тем лучше.

На выходе вначале получались приглушенные звуки, похожие на человеческую речь. После обучения Side Eye начал извлекать больше полезной информации и стал узнавать людей по голосу — в тех случаях, когда образцы присутствовали в тренировочных наборах данных.

С точки зрения кибербезопасности подобные инструменты составляют потенциальную угрозу, однако их также можно использовать в криминалистике для получения цифровых свидетельств. Так, например, обработанная по методу Side Eye запись с камеры видеонаблюдения сможет подтвердить или опровергнуть алиби подозреваемого в совершении преступления.

Следующая главная новость »

Самые свежие новости ИТ и ИБ. Обзоры, аналитика, анонсы главных ивентов
Подписывайтесь на телеграм-канал!

Екатерина Быстрова 31 Июля 2026 - 10:38

GenAI (генеративный искусственный интеллект)Соответствие законодательству РФ Общее

Права авторов при обучении ИИ уточнят в подзаконных актах осенью

Новый закон о поддержке развития искусственного интеллекта не отменяет Гражданский кодекс и не превращает произведения авторов в бесплатный корм для нейросетей. Об этом заявила советник президента России Елена Ямпольская. Закон, подписанный президентом 26 июля, разрешает использовать общедоступные и правомерно опубликованные материалы для обучения российских алгоритмов ИИ.

Однако правообладатель может закрыть свои работы от такой обработки техническими средствами. Бесконтрольно загружать в модели всё, до чего дотянулся парсер, нельзя.

Как именно будет работать этот механизм, пока предстоит решить. Подзаконные акты, по данным «Ведомостей», начнут появляться осенью. При их подготовке власти обещают учесть опасения творческих отраслей, представители которых предупреждали об обесценивании интеллектуальной собственности.

Эксперты тем временем предлагают несколько способов помирить нейросети с авторами. Среди них — отказ от использования произведений по требованию правообладателя, коллективное лицензирование и отчисление части прибыли ИИ-продуктов в компенсационный фонд.

В РАНХиГС считают, что разработчиков генеративных моделей стоит обязать вести закрытые реестры обучающих данных и показывать их регуляторам. Так можно будет понять, чьи произведения попали в датасет, не раскрывая коммерческую тайну.

Юрист Михаил Семенов предлагает разделять сценарии. Если модель копирует голос актёра, манеру художника или тексты конкретного писателя, потребуется прямой договор и выплаты. При массовом обучении на миллиардах материалов искать каждого автора нереально — здесь пригодился бы аналог авторского общества для ИИ.

В отрасли есть и более жёсткий взгляд: чрезмерные ограничения могут ударить и по экономике, и по культуре. Поэтому властям предстоит настроить систему так, чтобы модели не остались голодными, а авторы — с красивым обещанием вместо денег.

Самые свежие новости ИТ и ИБ. Обзоры, аналитика, анонсы главных ивентов
Подписывайтесь на телеграм-канал!