DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Яков Шпунт 19 Февраля 2025 - 10:23

...

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

Следующая главная новость »

Публичное облако 2026: где заканчивается удобство и начинаются риски?
Регистрируйтесь на эфир!

Екатерина Быстрова 01 Июня 2026 - 15:09

Уязвимости программ Домашние пользователи Корпорации

ИИ-помощник Meta помогал угонять редкие ники в Instagram

Instagram (принадлежит корпорации Meta, признанной экстремистской и запрещённой в России) оказался в центре неприятной истории: критическая уязвимость в системе поддержки на базе Meta AI позволяла злоумышленникам перехватывать аккаунты через процедуру восстановления пароля.

По данным исследователей, проблема была не во взломе серверов Meta, а в логике самого ИИ-ассистента.

Атакующие начинали диалог с чат-ботом и специальными запросами убеждали его отправить коды или ссылки для сброса пароля посторонним людям. Жёсткой проверки личности владельца аккаунта и нормальных ограничений на такие запросы, судя по всему, не хватало.

В результате для атаки было достаточно знать имя пользователя. Дальше дело техники: заставить бота поверить, что перед ним законный владелец профиля. Классический взлом? Нет. Скорее социальная инженерия, только жертвой стал не человек из поддержки, а ИИ.

Одними из первых о проблеме сообщили исследователи ZachXBT и Dark Web Informer. По их данным, злоумышленники охотились за дорогими и редкими никами в Instagram — короткими, красивыми и хорошо продающимися. Среди целей упоминались аккаунты вроде @hey и @jowo. Такие профили на подпольных рынках могут стоить огромных денег, иногда речь идёт о сотнях тысяч долларов.

Украденные аккаунты, как утверждается, быстро выставляли на продажу в закрытых телеграм-каналах.

Meta заявила, что её инфраструктура не была скомпрометирована, а проблему исправили вечером в пятницу. Компания подчеркнула, что речь шла об ошибке, позволявшей сторонним лицам запрашивать письма для сброса пароля некоторых пользователей.

Отдельно отмечается, что аккаунты с двухфакторной аутентификацией не пострадали.

Публичное облако 2026: где заканчивается удобство и начинаются риски?
Регистрируйтесь на эфир!