DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

WhatsApp вернул на Android полезную фишку с фото контактов

WhatsApp (принадлежит корпорации Meta, признанной экстремистской и запрещённой в России) наконец-то возвращает в Android-версию функцию, которую сам же когда-то и убрал: теперь мессенджер сможет показывать фото из адресной книги, если у контакта нет аватарки в WhatsApp.

Функция, по данным WABetaInfo, уже начала появляться у части пользователей WhatsApp beta для Android 2.26.21.9. Ранее аналогичную возможность заметили в бета-версии WhatsApp для iOS.

Работает всё просто: если человек не установил фото профиля в WhatsApp или скрыл его настройками приватности, приложение подставит изображение, сохранённое у вас в телефонной книге. Фото будет отображаться в списке чатов и внутри переписки без дополнительных настроек и танцев с меню.

 

Главное: это не меняет реальную аватарку контакта в WhatsApp. Снимок берётся только из вашей адресной книги и виден только на вашем устройстве. Другие участники чата его не увидят, а сам контакт не узнает, какую картинку вы для него сохранили. Так что если у вас кто-то занесён с мемной фоткой, это останется вашей маленькой локальной тайной.

Интересно, что раньше WhatsApp уже умел подтягивать фотографии из адресной книги, но затем функция пропала по неизвестным причинам.

Пока нововведение доступно только некоторым бета-тестерам Android через Google Play. WhatsApp постепенно расширяет запуск в ближайшие недели, но точных сроков появления функции в стабильной версии пока нет.

RSS: Новости на портале Anti-Malware.ru