DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Половина россиян опасается использования своих дипфейк-двойников

Как показало исследование Контур.Толк и Контур.Эгида, половина опрошенных опасается, что мошенники могут сгенерировать их изображение с помощью нейросетей. При этом руководители и сотрудники на ключевых должностях подвержены такому риску особенно сильно.

В опросе Контур.Толк и Контур.Эгида приняли участие 1200 работающих россиян. По его данным, о существовании технологий дипфейков хотя бы слышали 60% респондентов.

Четверть участников отметили, что видели изображения знаменитостей, созданные ИИ. Еще 13% слышали о подобных случаях от знакомых, а 7% сталкивались с дипфейками лично.

По мнению 46% опрошенных, технологии дипфейков опасны для любого человека, поскольку мошенники могут использовать поддельные изображения, голоса и видео для обмана. 37% считают, что под наибольшим риском находятся знаменитости — блогеры, актёры и музыканты. 34% назвали уязвимой категорией политиков, а 28% — руководителей и сотрудников на ответственных должностях.

Только треть участников опроса признались, что не уверены в своей способности распознать дипфейк. Более половины (52%) уверены, что смогут отличить фальшивку от оригинала, а 16% абсолютно в этом уверены.

При проверке информации 31% сравнивают несколько источников, 20% уточняют данные у знакомых или коллег, 17% обращаются к официальным сайтам и аккаунтам компаний. Каждый шестой доверяет интуиции, а каждый четвёртый вовсе ничего не перепроверяет.

Роман Теплоухов, системный аналитик Контур.Толка и эксперт Центра ИИ в Контуре, отмечает:

«Всё больше бизнес-процессов переходит в онлайн, но сервисов видеосвязи недостаточно для точной идентификации собеседников. Топ-менеджерам и руководителям важно быть уверенными, что на совещании действительно присутствуют те, за кого себя выдают».

Даниил Бориславский, эксперт по информационной безопасности Контур.Эгиды и директор по продукту Staffcop, прокомментировал результаты исследования так:

«Почти половина опрошенных даже не догадывается о существовании дипфейков, что делает их самой уязвимой категорией для атак. Защищаться от угрозы, о которой не знаешь, невозможно. Ещё одна проблема — избыточное доверие: люди склонны верить знакомым лицам и голосам, и именно на этом строится социальная инженерия с использованием дипфейков. Радует, что базовые навыки проверки неожиданных запросов у людей начинают формироваться. Это значит, что бизнес может превратить сотрудников из потенциального слабого звена в надёжную линию обороны».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru