DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

DarkMind: специалисты продемонстрировали манипулятивную атаку на LLM

Исследователи из Университета Сент-Луиса продемонстрировали атаку на большие языковые модели (LLM), позволяющую манипулировать процессами рассуждения нейросетей. В отличие от других методов атак на искусственный интеллект, эта уязвимость не обнаруживается стандартными средствами и не требует изменения запросов.

Авторы исследования, Зен Го и Реза Турани, назвали свою разработку DarkMind. Техника базируется на уязвимостях парадигмы «цепочки рассуждений» (Chain-of-Thought, CoT), используемой в таких моделях, как ChatGPT, GPT-4, O1 и LLaMA-3.

DarkMind внедряет скрытые триггеры в приложения, работающие поверх языковых моделей, что делает атаку практически незаметной при обычном использовании. Выявить её сложно даже в приложениях, которых уже насчитывается сотни тысяч, так как она активируется только при срабатывании определенных шаблонов рассуждений.

При этом меры защиты, предназначенные для противодействия другим типам манипулятивных атак, не обнаруживают DarkMind, и вредоносная активность выявляется лишь после её активации.

Исследователи также установили, что чем совершеннее LLM, тем более они уязвимы к данной технике атак. Более того, для её применения не требуется модификация запросов или алгоритмов работы моделей, что делает технологию простой в использовании и потенциально массовой, особенно в таких секторах, как финансы и медицина, где LLM активно внедряются.

Зен Го и Реза Турани сообщили, что работают над защитными мерами, направленными на предотвращение подобных атак, и призвали разработчиков усилить встроенные механизмы защиты от манипулятивных воздействий на LLM. Однако, по мнению Microsoft, создать полностью безопасные системы на базе генеративного ИИ невозможно.

Apple начала блокировать на iPhone альтернативный Telegram-клиент Telega

У пользователей iPhone начались проблемы с альтернативным клиентом Telegram «Телега». После удаления приложения из App Store 9 апреля Apple, судя по сообщениям пользователей, начала дополнительно помечать уже установленную версию как потенциально опасную: iOS не даёт открыть приложение, оно вылетает, а система рекомендует удалить его с устройства.

При этом сама Телега действительно пропала из App Store, тогда как в Google Play и RuStore приложение по-прежнему доступно.

Официальные комментарии Apple с прямым объяснением именно по этому клиенту пока не опубликованы. Но сама механика такого предупреждения у iPhone существует.

Apple отдельно описывает сценарий, при котором iOS блокирует запуск приложения, если считает, что оно содержит вредоносный код, и предлагает пользователю удалить его.

Источник: «Хабр»

 

Разработчики Телеги ранее объясняли исчезновение приложения из App Store по-своему. В проекте заявили, что временное удаление могло быть связано с волной негативных отзывов после введения списка ожидания для новых пользователей.

По их версии, это могли неверно интерпретировать модераторы Apple. Однако на фоне этой истории у Telega уже был и другой, куда более неприятный контекст.

Ещё 20 марта в сети появился анонимный материал с техническим разбором клиента Телега для Android, где авторы утверждали, что в приложении якобы была активирована скрытая функциональность для перехвата данных между клиентом и серверами Telegram.

В публикации речь шла о схеме «Человек посередине», при которой трафик проходит через инфраструктуру самой Телеги. Позже на эту историю обратили внимание и профильные площадки, а Telegram, по данным профильных СМИ, начал отдельно помечать аккаунты пользователей неофициальных клиентов предупреждением о рисках.

Кроме того, на прошлой недели энтузиасты разобрали Android-версию Телеги и выяснили, что клиент мог читать переписку пользователей.

Интересно также, что Cloudflare в этом месяце признал домены Телеги шпионскими.

RSS: Новости на портале Anti-Malware.ru