Российские учёные научили ИИ ловить фейковые фото и нелепые изображения

Российские учёные научили ИИ ловить фейковые фото и нелепые изображения

Российские учёные научили ИИ ловить фейковые фото и нелепые изображения

Исследователи из AIRI, Сколтеха, MWS AI и МФТИ по-новому решили одну из наиболее сложных задач компьютерного зрения — выявление изображений с нелогичным содержанием, вроде рыцаря с мобильником или пингвина на велосипеде.

Разработанный ими метод TLG (Through the Looking Glass, «В Зазеркалье») использует ИИ для создания текстовых описаний картинок и обнаружения противоречий при сопоставлении с визуальным содержанием.

В комментарии для «Известий» один из соавторов проекта, доктор компьютерных наук Александр Панченко пояснил: существующие ИИ-модели хорошо распознают элементы картинок, но плохо улавливают контекст — далеко не всегда понимают совместимость представленных объектов с точки зрения здравого смысла.

Чтобы проверить действенность своего подхода, экспериментаторы создали датасет, включив него 824 изображения с нелепыми ситуациями. Тестирование алгоритма показало точность распознавания до 87,5%, что на 0,5-15% выше показателей других существующих моделей, а также большую экономию вычислительных ресурсов.

Новаторская разработка, по словам Панченко, способна повысить надежность систем компьютерного зрения. После доработки и дообучения ее также можно будет использовать для модерации контента — к примеру, для выявления фейковых фото.

13 слов против ИИ: Reddit и Wikipedia стали оружием против нейросетей

Исследователи из Cornell Tech обнаружили неприятную проблему у современных ИИ-агентов для глубокого поиска и анализа информации. Оказалось, что для обмана таких систем иногда достаточно добавить всего несколько слов в популярную тему на Reddit или внести небольшую правку в статью Wikipedia.

Речь идет о так называемых агентах углублённого исследования — системах вроде ChatGPT Deep Research, Google Gemini и других инструментов, которые самостоятельно ищут информацию в интернете, анализируют десятки источников и формируют подробные отчеты со ссылками.

Проблема в том, что такие ИИ активно используют пользовательский контент. По данным исследования, от 17% до 23% всех источников, на которые опираются подобные системы, приходится на Reddit, Wikipedia, форумы, Quora и другие площадки с открытым редактированием. Причем Reddit оказался главным поставщиком такой информации.

Этим и решили воспользоваться злоумышленники. Исследователи описали атаку под названием WARP (Web Agent Retrieval Poisoning). Схема проста: сначала мошенник находит популярную тему, которая часто попадает в результаты поиска ИИ. Затем он добавляет туда рекламную или ложную информацию, замаскированную под обычный пользовательский комментарий.

 

После индексации поисковиками этот фрагмент начинает попадать в выборку ИИ-агентов и воспринимается ими как достоверный источник.

Самое неприятное, что для атаки не нужно взламывать нейросеть, серверы разработчика или базы данных. Достаточно отредактировать общедоступную страницу.

В ходе экспериментов даже короткая вставка примерно из 13 слов приводила к тому, что фейковые рекомендации появлялись в ответах ИИ в 38–51% случаев. А если вредоносный текст добавлялся в несколько источников одновременно, эффективность атаки становилась еще выше.

Исследователи приводят показательные примеры. Так, вымышленная криптовалюта BananaCoin неожиданно начала фигурировать в инвестиционных рекомендациях наряду с Bitcoin и Ethereum. Несуществующее приложение знакомств SilverPath оказалось лучшим сервисом для разведенных мужчин старше 50 лет. А фейковый сервис CancelEase ИИ советовал для отмены подписки Xfinity.

Эксперты предупреждают: проблема носит системный характер. Пока ИИ доверяет информации из открытого интернета и использует её как доказательство в своих ответах, злоумышленники могут манипулировать результатами практически без технических навыков.

RSS: Новости на портале Anti-Malware.ru