Исследователи из AIRI, Сколтеха, MWS AI и МФТИ по-новому решили одну из наиболее сложных задач компьютерного зрения — выявление изображений с нелогичным содержанием, вроде рыцаря с мобильником или пингвина на велосипеде.
Разработанный ими метод TLG (Through the Looking Glass, «В Зазеркалье») использует ИИ для создания текстовых описаний картинок и обнаружения противоречий при сопоставлении с визуальным содержанием.
В комментарии для «Известий» один из соавторов проекта, доктор компьютерных наук Александр Панченко пояснил: существующие ИИ-модели хорошо распознают элементы картинок, но плохо улавливают контекст — далеко не всегда понимают совместимость представленных объектов с точки зрения здравого смысла.
Чтобы проверить действенность своего подхода, экспериментаторы создали датасет, включив него 824 изображения с нелепыми ситуациями. Тестирование алгоритма показало точность распознавания до 87,5%, что на 0,5-15% выше показателей других существующих моделей, а также большую экономию вычислительных ресурсов.
Новаторская разработка, по словам Панченко, способна повысить надежность систем компьютерного зрения. После доработки и дообучения ее также можно будет использовать для модерации контента — к примеру, для выявления фейковых фото.