DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

Взломанный телеграм-канал Гурулева сообщил о мобилизации

В телеграм-канале депутата Госдумы, генерал-лейтенанта запаса Андрея Гурулева появился громкий пост о том, что СВО якобы перешла в формат позиционного тупика, а осенью будто бы планируется новая мобилизация. Но сам парламентарий быстро дал понять: к публикации он отношения не имеет.

В разговоре с RTVI Гурулев заявил:

«Нет у меня телеграм-канала. Это не мой телеграм-канал».

А в своем канале в мессенджере МАКС написал, что его телеграм-аккаунт был украден, а тексты там распространяются врагами.

«Постараемся как можно скорее вернуть доступ, всем спасибо, не ведитесь на провокации!» — говорится в сообщении депутата.

Скандальный пост появился вечером 1 июня. В нем от имени Гурулева утверждалось, что продвижение российских войск замедлилось из-за насыщения передовой и ближнего тыла беспилотниками.

Там же говорилось о якобы принятом принципиальном решении провести новую мобилизацию осенью. До кучи в публикации были критические пассажи о дефиците топлива на юге России и безопасности трассы «Новороссия».

История выглядит особенно неприятно на фоне того, что личный аккаунт и канал Гурулева в Telegram уже подвергались взлому в конце мая. Тогда мошенники писали людям от имени депутата и требовали срочно перевести криптовалюту. В канале также появлялся пост о сборе средств в криптовалюте якобы на дроны для ВДВ, но позже его удалили.

После взлома Гурулев отдельно предупреждал: если от его имени приходят сообщения с просьбой перевести деньги, передать данные или срочно что-то сделать, реагировать не надо.

RSS: Новости на портале Anti-Malware.ru