ИИ помог ученым извлечь звук из фото и немого видео

ИИ помог ученым извлечь звук из фото и немого видео

ИИ помог ученым извлечь звук из фото и немого видео

Метод, разработанный университетскими исследователями, позволяет получать аудиоданные из фотографий и видео, снятого с выключенным микрофоном. Созданный учеными ИИ-инструмент способен даже определить пол комментатора, созерцавшего фотосессию.

Концепция, нареченная Side Eye, предполагает использование стабилизатора изображения и механизма скользящего затвора, присутствующих во встроенных камерах многих современных телефонов. Созданный в ходе исследования инструмент использует средства машинного обучения, и его можно натренировать на аудиозаписях с тем, чтобы он научился распознавать часто употребляемые слова — например, «да» и «нет».

«Представьте себе, что кто-то снимает для TikTok видео, отключив звук, чтобы наложить музыку, — говорит профессор Кевин Фу (Kevin Fu) из Северо-Восточного университета в Бостоне. — А вдруг кому-нибудь захочется узнать, что сказал герой ролика? Вспомнил детский стишок про арбуз или выдал свой пароль? И о чем это шушукаются за его спиной? Все это можно выяснить».

Оказалось, что разговор рядом с объективом камеры вызывает слабые вибрации в стабилизаторе, компенсирующем дрожание рук при съемке. Угол света при этом почти незаметно изменяется.

Извлечь звуковую частоту из этих микровибраций трудно, однако задачу исследователям облегчил эффект скользящего затвора — когда сканирование пикселей происходит построчно, за сотни тысяч прогонов для каждого изображения. Это открывает возможность для детализации изменений, вызванных речью фотографа, его модели или наблюдателя.

По словам исследователей, Side Eye исправно работает даже с материалами, отснятыми при плохом освещении. Не смущают его и неудачные снимки вроде потолка во весь кадр, однако чем больше отображаемой информации, тем лучше.

На выходе вначале получались приглушенные звуки, похожие на человеческую речь. После обучения Side Eye начал извлекать больше полезной информации и стал узнавать людей по голосу — в тех случаях, когда образцы присутствовали в тренировочных наборах данных.

С точки зрения кибербезопасности подобные инструменты составляют потенциальную угрозу, однако их также можно использовать в криминалистике для получения цифровых свидетельств. Так, например, обработанная по методу Side Eye запись с камеры видеонаблюдения сможет подтвердить или опровергнуть алиби подозреваемого в совершении преступления.

Сгенерированный ИИ контент с детьми становится более жестоким и массовым

Во всём мире быстро растут объёмы экстремального контента, сгенерированного нейросетевыми инструментами, в том числе на основе изображений реальных людей, включая детей. Для противодействия этой тенденции эксперты предлагают пересмотреть регулирование интернет-безопасности и ввести жёсткие ограничения для профильных компаний.

По данным, изложенным в докладе британской неправительственной организации Internet Watch Foundation (IWF), в 2025 году было выявлено 8029 реалистичных роликов, содержащих сцены сексуализированного насилия над детьми. Это на 14% больше, чем годом ранее.

Однако в текущем году ситуация начала стремительно ухудшаться, что вызывает серьёзную обеспокоенность экспертов. В частности, за минувший год доля изображений и видео, содержащих пытки и извращённый секс, выросла с 13 до 69%.

«Хотя доля материалов, созданных с помощью искусственного интеллекта (ИИ), остаётся сравнительно небольшой среди огромного количества материалов с участием детей, с которыми наши аналитики работают каждый год, число изображений, созданных с помощью ИИ, возросло в геометрической прогрессии благодаря доступности и простоте таких инструментов. Сейчас мы сталкиваемся с технологическим ландшафтом, который может с беспрецедентной лёгкостью порождать бесконечные нарушения», — говорится в докладе IWF.

Ведущий специалист отдела исследовательских разработок компании «Стахановец», эксперт в области информационных технологий и информационной безопасности Алексей Миронов в комментарии для «Известий» обратил внимание на рост доступности и удешевление нейросетевых инструментов: «Если ещё пару лет назад для создания реалистичного видеоролика или дипфейка требовались серьёзные вычислительные мощности и глубокие знания в программировании, то сегодня злоумышленники могут использовать недорогие облачные сервисы и готовые инструменты».

Глава Альянса по защите детей в цифровой среде Елизавета Белякова также назвала одной из причин широкого распространения такого контента то, что даже один человек способен за короткий срок сгенерировать значительные объёмы подобных материалов. Это подогревает высокий платёжеспособный спрос на такие изображения и видео в определённых сообществах. При этом злоумышленники нередко используют изображения реальных людей, например, из соцсетей. Это создаёт серьёзные репутационные риски и может способствовать кибербуллингу и шантажу.

Ситуацию усугубляет то, что в настоящее время дипфейк часто невозможно отличить от реального изображения без использования специального инструментария. Это признал руководитель Экспертно-криминалистического центра МВД России.

Основатель платформы мониторинга нейросетей GEO Scout Владислав Пучков отметил, что злоумышленники используют модифицированные ИИ-модели с открытым кодом. Кроме того, они могут сочетать сразу несколько инструментов. Причём обходить ограничения, установленные разработчиками, способны даже пользователи с невысокой квалификацией. Тем более что в соответствующих сообществах можно найти готовые инструкции.

По мнению экспертов, в дальнейшем ситуация будет только ухудшаться. Этому будут способствовать как большой объём такого контента, так и его дальнейший рост, из-за чего системы модерации онлайн-платформ могут перестать справляться с нагрузкой.

По оценке Алексея Миронова, помочь здесь может принцип «ИИ против ИИ». В этом случае нелегальный контент будут выявлять и блокировать на уровне провайдеров, а весь легитимный контент получит обязательные цифровые водяные знаки. Также он указал на необходимость контролировать корпоративные ИИ-модели на предмет их использования в нелегитимных целях.

Директор Центра компетенций по глобальной ИT-кооперации Вадим Глущенко назвал ключевой задачей налаживание обмена данными между интернет-платформами и провайдерами, а также выработку общих подходов к выявлению запрещённого контента на межстрановом уровне. Хорошим примером такого сотрудничества он назвал инициативу INHOPE, охватывающую 52 страны, включая Россию.

RSS: Новости на портале Anti-Malware.ru