Эксперты научились вычислять, что печатает человек во время видеозвонка

Эксперты научились вычислять, что печатает человек во время видеозвонка

Эксперты научились вычислять, что печатает человек во время видеозвонка

Специалисты Техасского и Оклахомского университетов разработали новый вектор атаки, базирующийся на вычислении клавиш, которые нажимает собеседник во время видеозвонка. По словам исследователей, метод сработает и в случае с трансляциями на YouTube или Twitch, требуется лишь одно условие — веб-камера должна захватывать верхнюю часть тела стримера.

Таким образом, эксперты берут за основу движения тела собеседника на другом конце видеозвонка. Соотнося их с видеопотоком, исследователи, по их словам, могут вычислять нажимаемые клавиши.

«Поскольку аппаратное обеспечение для захвата видео встроено практически во все современные девайсы (смартфоны, ноутбуки, планшеты), опасность утечки информации через визуальные каналы стала более реальна. Цель злоумышленников в этом случае — взять за основу язык тела, соотнести его с видеопотоком и вычислить, что жертва набирает на клавиатуре», — пишут специалисты в отчёте (PDF).

Чтобы максимально автоматизировать процесс и добиться более точных результатов, соответствующие кадры можно «скормить» специальному фреймворку, который действует по следующему алгоритму:

  1. Предварительная обработка, в процессе которой удаляется фон и видео конвертируется в оттенки серого. Далее акцент идёт на руки и лицо жертвы и подключается модель FaceBoxes.
  2. Детектирование нажатий клавиш. Здесь алгоритм использует индекс структурного сходства (SSIM, structure similarity), чтобы определить движения тела между последовательными кадрами, когда человек набирал определённый текст.
  3. Предугадывание слов. На этом этапе выделяются специальные кадры, когда собеседник набирал текст, а затем они используются для вычисления конкретного текста с помощью специального алгоритма.

 

Исследователи заявили, что тестировали этот фреймворк на 20 собеседниках (9 женщинах, 11 мужчинах), при этом использовался даже разных софт для видеозвонков: Zoom, Hangouts и Skype. Сначала эксперты задействовали управляемое окружение, а затем — уже произвольное. В последнем случае удалось точно определить 91,1% вводимых имён пользователей и 95,5% адресов электронной почты.

Более трех четвертей россиян не отличают нейросетевой контент от реального

Согласно исследованию агентств Spektr и СКОТЧ, 77% участников не смогли отличить изображения, созданные нейросетями, от реальных фотографий. В опросе приняли участие около 1000 человек. Респондентам в случайном порядке показывали пять изображений, из которых четыре были сгенерированы ИИ, а одно — подлинное.

Результаты исследования приводит РБК. Корректно определить сгенерированные изображения смогли лишь 23% опрошенных.

При этом в более молодых возрастных группах показатели оказались выше. Среди респондентов до 30 лет правильный ответ дали 30%, в группе 31–44 года — 25%.

В числе признаков «настоящего» фото участники называли убедительные детали, реалистичные свет и тени, а также естественную улыбку человека в кадре. Например, изображение с улыбающимся мужчиной чаще других считали реальным участники в возрасте 45–60 лет — 28% из них выбрали именно этот вариант.

Примечательно, что доля тех, кто ошибается при определении ИИ-контента, растёт. Согласно результатам исследования MWS, опубликованным летом 2025 года, правильно распознать сгенерированные изображения смогли более трети респондентов.

RSS: Новости на портале Anti-Malware.ru