Мошенников, освоивших ИИ, выдают артефакты на фейковых сайтах

Мошенников, освоивших ИИ, выдают артефакты на фейковых сайтах

Мошенников, освоивших ИИ, выдают артефакты на фейковых сайтах

Проведенное в «Лаборатории Касперского» исследование показало, что поддельные сайты, созданные с помощью ИИ, могут содержать следы использования таких онлайн-сервисов, которые мошенники поленились или забыли вычистить.

Рост доступности больших языковых моделей (БЯМ, LLM) способствует, в числе прочего, увеличению количества злоупотреблений.

Использование инструментов на их основе позволяет поставить генерацию контента, в том числе вредоносного, на поток, однако ИИ-помощников нельзя оставлять без присмотра, о чем не знают или забывают обманщики.

В ходе анализа на фишинговых и скамерских сайтах эксперты обнаружили такие артефакты, как ответы чат-ботов, в которых сработала встроенная защита; лексикон, характерный для известных LLM; служебные пометки со ссылкой на ИИ-сервис.

Так, из-за больших масштабов автоматизации или кривых рук на созданных ИИ страницах зачастую можно встретить извинения чат-бота, которому этикет не позволяет выполнить запрос. Взамен он предлагает «сделать что-то похожее», и это тоже попадает в паблик.

 

В данном примере присутствуют и другие свидетельства фейка — диакритический знак в слове «Login» и буква «ɱ» вместо «m» в заголовке (замена по методу тайпсквоттинга).

Использование LLM, по словам экспертов, могут также выдать характерные слова и фразы. Чат-боты OpenAI, например, часто употребляют delve («штудировать»), а конструкции вроде in the ever-evolving / ever-changing world / landscape («в изменчивом /развивающемся мире / ландшафте») использует множество нейросетей.

Предательский отказ ассистента подчиниться и другие маркеры изредка встречаются также в мегатегах поддельных сайтов. В примере ниже исследователи обнаружили еще один признак мошенничества — имя «bolygon» в URL имитации легитимного Polygon.

 

«Злоумышленники активно изучают возможности применения больших языковых моделей в разных сценариях автоматизации, но, как видно, иногда допускают ошибки, которые их выдают, — отметил руководитель группы исследований и ML-разработок в Kaspersky Владислав Тушканов. — Однако подход, основанный на определении поддельной страницы по наличию тех или иных “говорящих слов”, ненадёжен. Поэтому пользователям нужно обращать внимание на подозрительные признаки, например логические ошибки и опечатки на странице. Важно убедиться, что адрес сайта совпадает с официальным».

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru