ИИ помог ученым извлечь звук из фото и немого видео

ИИ помог ученым извлечь звук из фото и немого видео

ИИ помог ученым извлечь звук из фото и немого видео

Метод, разработанный университетскими исследователями, позволяет получать аудиоданные из фотографий и видео, снятого с выключенным микрофоном. Созданный учеными ИИ-инструмент способен даже определить пол комментатора, созерцавшего фотосессию.

Концепция, нареченная Side Eye, предполагает использование стабилизатора изображения и механизма скользящего затвора, присутствующих во встроенных камерах многих современных телефонов. Созданный в ходе исследования инструмент использует средства машинного обучения, и его можно натренировать на аудиозаписях с тем, чтобы он научился распознавать часто употребляемые слова — например, «да» и «нет».

«Представьте себе, что кто-то снимает для TikTok видео, отключив звук, чтобы наложить музыку, — говорит профессор Кевин Фу (Kevin Fu) из Северо-Восточного университета в Бостоне. — А вдруг кому-нибудь захочется узнать, что сказал герой ролика? Вспомнил детский стишок про арбуз или выдал свой пароль? И о чем это шушукаются за его спиной? Все это можно выяснить».

Оказалось, что разговор рядом с объективом камеры вызывает слабые вибрации в стабилизаторе, компенсирующем дрожание рук при съемке. Угол света при этом почти незаметно изменяется.

Извлечь звуковую частоту из этих микровибраций трудно, однако задачу исследователям облегчил эффект скользящего затвора — когда сканирование пикселей происходит построчно, за сотни тысяч прогонов для каждого изображения. Это открывает возможность для детализации изменений, вызванных речью фотографа, его модели или наблюдателя.

По словам исследователей, Side Eye исправно работает даже с материалами, отснятыми при плохом освещении. Не смущают его и неудачные снимки вроде потолка во весь кадр, однако чем больше отображаемой информации, тем лучше.

На выходе вначале получались приглушенные звуки, похожие на человеческую речь. После обучения Side Eye начал извлекать больше полезной информации и стал узнавать людей по голосу — в тех случаях, когда образцы присутствовали в тренировочных наборах данных.

С точки зрения кибербезопасности подобные инструменты составляют потенциальную угрозу, однако их также можно использовать в криминалистике для получения цифровых свидетельств. Так, например, обработанная по методу Side Eye запись с камеры видеонаблюдения сможет подтвердить или опровергнуть алиби подозреваемого в совершении преступления.

Российский госсектор находится под давлением APT-группировок

По данным Центра компетенций по сетевой безопасности компании «Гарда», в 2025 году российские государственные структуры и промышленные предприятия находились под серьёзным давлением со стороны APT-группировок. Основными целями атак оставались кибершпионаж и нанесение существенного ущерба работе ИТ-инфраструктуры.

В «Гарда» также отмечают смену тактики злоумышленников: на смену демонстративным акциям, рассчитанным на медийный эффект, пришла скрытная и методичная работа, ориентированная на долгосрочное присутствие в инфраструктуре жертвы.

Ключевой конечной целью большинства атак остаётся сбор данных. В отдельных случаях злоумышленники уничтожали информацию после получения доступа к ней, однако нередко фиксировались и попытки максимально долго сохранить скрытое присутствие в атакованной инфраструктуре.

Всего, по оценке «Гарда», в число наиболее активных группировок, атакующих российские организации, вошли восемь APT-групп. Семь из них связывают с Украиной, ещё одна имеет азиатское происхождение — предположительно, основная часть её участников находится в Казахстане. Все эти группировки активно атакуют государственные учреждения. Следом по частоте атак идут промышленность и энергетика, телекоммуникационный сектор и образование.

Для первичного проникновения в ИТ-инфраструктуру компаний и госорганов злоумышленники, как правило, используют фишинг. Применяются две основные тактики: целевые рассылки и использование легитимных инструментов — в том числе документов — либо замаскированных под них зловредов. При этом содержание писем всегда адаптируется под профиль конкретной организации.

Получив начальный доступ, атакующие закрепляются в системе, опираясь на общедоступные средства администрирования, инструменты туннелирования и фреймворки постэксплуатации. Широко применяются PowerShell-скрипты, задания планировщика, ключи автозапуска в реестре, а также установка легитимных агентов удалённого управления, не содержащих явных признаков вредоносного кода. Такая тактика позволяет сохранять доступ после перезагрузки и не привлекать внимание средств защиты.

Для «бокового» перемещения внутри сети хакеры используют инструменты анализа Active Directory и сетевого сканирования. Перемещение между узлами осуществляется с помощью штатных протоколов Windows, а также с использованием украденных или приобретённых на теневом рынке учётных данных.

Управляя скомпрометированной инфраструктурой, злоумышленники активно маскируют сетевой трафик, используя HTTPS, WebSocket и туннелирование через сервисы — аналоги ngrok. В отдельных случаях задействуются публичные облачные платформы. Это усложняет сетевой анализ и позволяет скрывать реальные серверы управления. В ряде атак также зафиксирован переход на новые открытые C2-фреймворки, доработанные под собственные задачи, включая AdaptixC2 и другие решения.

«Результаты исследования показывают, что атакующие всё чаще маскируют вредоносную активность под штатные процессы и легитимное администрирование. Поэтому критически важно не только контролировать действия в инфраструктуре, но и обогащать средства защиты потоками данных об угрозах — TI-фидами. Они позволяют учитывать тактики, техники и инструменты конкретных группировок, быстрее выявлять подозрительные цепочки событий и сокращать время реагирования на инциденты», — отметил Илья Селезнёв, руководитель продукта «Гарда Threat Intelligence Feeds».

RSS: Новости на портале Anti-Malware.ru