DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Яков Шпунт 19 Февраля 2025 - 10:23

...

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

Следующая главная новость »

Публичное облако 2026: где заканчивается удобство и начинаются риски?
Регистрируйтесь на эфир!

Екатерина Быстрова 01 Июня 2026 - 18:59

Мошенничество Онлайн-мошенничество Домашние пользователи Перспективный Мониторинг

Не взлом, а давление: мошенники всё чаще охотятся на подростков

Эксперты «Перспективного мониторинга» выяснили: мошенники всё активнее давят не на системы, а на психику. Причём бьют по самым уязвимым — детям, подросткам и пожилым людям. В мае специалисты зафиксировали рост схем, где главную роль играют паника, доверие и срочность.

Один из популярных сценариев — родственник в беде, только теперь звонят не бабушкам, а детям.

Злоумышленники представляются полицейскими, врачами или знакомыми семьи и сообщают, что родители якобы попали в ДТП или отделение полиции. Дальше всё по классике: срочно найди дома деньги, карты, ценности и передай курьеру. Ребёнок напуган, проверить информацию не успевает, мошенникам только это и нужно.

Похожая схема работает и в мессенджерах. Взламывается аккаунт подростка, после чего его друзьям и родственникам летят просьбы срочно одолжить денег. Знакомый профиль снижает бдительность, деньги уходят не другу, а в карман злоумышленникам.

Отдельная кормушка — игры. Детям предлагают скачать взломанные версии популярных тайтлов, бесплатную валюту или моды. На деле вместе с подарком на устройство может прилететь вредоносная программа, которая крадёт данные, перехватывает сообщения и коды подтверждения или позволяет управлять гаджетом.

Есть и беспроигрышные конкурсы от имени блогеров: оплатите доставку, комиссию или подтверждение выигрыша — и, конечно, получите не приз, а тишину. Летом добавляется ещё одна приманка: выгодная подработка для подростков. Ссылки для оформления ведут на фишинговые анкеты, где собирают персональные данные, включая сведения о родителях.

Особенно активно мошенники эксплуатируют экзаменационный сезон. Под видом сотрудников школ или ведомств они пугают подростков проблемами с ЕГЭ и требуют подтвердить данные или прислать СМС-коды. Параллельно работают сайты и боты с продажей ответов на ЕГЭ за 799-5000 рублей. После оплаты жертва получает пустой архив или вредоносный файл под видом PDF.

Публичное облако 2026: где заканчивается удобство и начинаются риски?
Регистрируйтесь на эфир!