DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Яндекс научит школьников распознавать дипфейки и расскажет о рисках

Яндекс подключился к просветительскому проекту «Цифровой ликбез» и подготовил для школьников урок о том, как распознавать дипфейки и защищаться от связанных с ними угроз. Материал рассчитан на детей от 6 лет, но будет полезен и взрослым — например, родителям или учителям, которые рассказывают детям о цифровой безопасности.

Урок сделан в формате мультфильма. Его главный герой — рыбка-коробочка из подводного города Кораллвиль, на примере которой школьникам показывают, чем опасны дипфейки и почему важно перепроверять информацию из интернета.

Для незрячих и слабовидящих зрителей добавлены тифлокомментарии — короткие описания происходящего между репликами персонажей.

К мультфильму прилагаются методические материалы для педагогов: презентация с фактами и заданиями, примеры из жизни и даже готовый сценарий занятия. Для детей предусмотрен тест, чтобы закрепить полученные знания. Все материалы доступны на сайте проекта.

«Генеративные нейросети открывают захватывающие возможности, но их используют не только во благо. Даже экспертам не всегда удаётся безошибочно отличить подделку, созданную ИИ. Но мы можем объяснить детям базовые правила цифровой безопасности и научить их скептически относиться к любому контенту из мессенджеров и соцсетей», — отметил директор по информационной безопасности Яндекса Александр Каледа.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru