ИСП РАН работает над маркировкой дипфейков

ИСП РАН работает над маркировкой дипфейков

ИСП РАН работает над маркировкой дипфейков

Директор Института системного программирования РАН им. В. П. Иванникова академик Арутюн Аветисян в кулуарах открытой конференции ИСП РАН заявил о том, что институт работает над цифровыми метками для маркировки контента, сгенерированного искусственным интеллектом (ИИ).

Пока, как отметил Арутюн Аветисян в беседе с корреспондентом ТАСС на полях конференции, готовые инструменты «позволяющие автоматически однозначно идентифицировать сгенерированный ИИ контент», отсутствуют. Причем их нет не только в России, но и в любой другой стране мира.

Директор ИСП РАН заявил, что в институте уже работают над своего рода цифровыми водяными знаками для маркировки материалов, сгенерированных с помощью ИИ. Это позволит защитить пользователей от угроз, которые несет распространение ложных данных.

Уже в первом квартале 2024 года, по данным Positive Technologies, дипфейки фигурировали в 85% атак на частных лиц с использованием методов социальной инженерии.

Необходимость маркирования такого контента отражена в регуляторных документах целого ряда стран, включая Россию, США, а также Евросоюз.

«[В ИСП РАН разработана] технология DocMarking, использующая машинное обучение для внедрения незаметных меток в изображения или видеопоток. Изначально мы применяли ее для борьбы с утечками конфиденциальных документов, а теперь адаптируем для пометки сгенерированного контента», — заявил Арутюн Аветисян корреспонденту ТАСС.

ИИ-браузеры обманули игрой и заставили сливать логины пользователей

Оказывается, современный ИИ можно взломать не только сложным промптом, но и головоломкой. Исследователи из компании LayerX представили технику BioShocking, которая заставляет ИИ-браузеры добровольно воровать данные пользователя. Под удар попали сразу несколько популярных решений, включая ChatGPT Atlas, Perplexity Comet и браузерное расширение Claude от Anthropic.

Суть атаки строится вокруг так называемой косвенной инъекции в промпт. Пользователю достаточно открыть специально подготовленную веб-страницу.

Для человека это обычная игра с абсурдными правилами вроде «2 + 2 = 5». А вот ИИ воспринимает встроенные в страницу инструкции как часть задания и постепенно начинает следовать логике злоумышленника.

Финал игры выглядит так: агенту предлагают получить учётные данные пользователя и передать их атакующему. Во время эксперимента ни один из шести протестированных ИИ не распознал это как опасное действие.

 

В демонстрации LayerX агент самостоятельно открыл рабочий репозиторий GitHub пользователя, получил учётные данные SSH и отправил их злоумышленнику. Исследователи использовали безвредный текстовый файл, однако отмечают, что аналогичным способом можно добраться до открытых вкладок браузера, корпоративных сервисов, внутренних инструментов и других ресурсов.

Самое опасное здесь не сама головоломка, а возможности ИИ в режиме агента. Такие браузеры умеют нажимать кнопки, переходить по ссылкам, читать содержимое сайтов и выполнять действия от имени пользователя. Если агент уже имеет доступ к аккаунтам, вредоносная страница может превратить его в помощника злоумышленника.

 

По данным LayerX, реакция разработчиков оказалась неодинаковой. OpenAI устранила проблему в ChatGPT Atlas. Perplexity, как утверждают исследователи, закрыла отчёт без патча. Anthropic выпустила обновление для расширения Claude, но, по мнению LayerX, оно не решило проблему полностью.

Эксперты считают, что ИИ-браузеры должны запрашивать явное разрешение перед доступом к данным из сервисов. А пользователям советуют не держать агентный режим включённым без необходимости.

RSS: Новости на портале Anti-Malware.ru