Microsoft: системы на базе ИИ никогда не станут абсолютно безопасными

Татьяна Никитина 17 Января 2025 - 16:51

...

Microsoft: системы на базе ИИ никогда не станут абсолютно безопасными

Команда Microsoft AI Red Team (AIRT) подытожила свой опыт тестирования 100 продуктов, созданных в компании на основе генеративного ИИ, и пришла к выводу, что обеспечение безопасности таких систем — нескончаемый процесс.

Из-за фундаментальных ограничений ИИ-моделей угрозы вроде инъекции стимула и джейлбрейка в этой сфере неистребимы.

Однако такие атаки можно сделать более затратными — как и в случае с другими ИТ-рисками, которые удается снизить, применяя, к примеру, тактику эшелонированной защиты (defense-in-depth) или следуя принципам конструктивной безопасности (security-by-design).

Делясь опытом, в Red Team также отметили (PDF), что для выстраивания защиты ИИ-системы важно понимать ее возможности и учитывать сферу применения. Так, большие языковые модели (БЯМ, LLM) склонны слепо следовать инструкциям пользователя, и их легко обмануть, спрятав вредоносный контент в большом объеме безобидного текста при вводе.

Также атака на ИИ-помощника по литературному творчеству вряд ли приведет к серьезным последствиям, а в случае с LLM, предназначенной для анализа историй болезни, может нанести вред здоровью пациентов и поставить крест на репутации медучреждения.

Чтобы заставить LLM выдать вредный совет, необязательно проводить градиентные состязательные атаки. Тот же эффект можно получить более дешевым способом, манипулируя интерфейсом либо введя в заблуждение модель языка и технического зрения.

Еще одно важное наблюдение, которым поделились специалисты: использование ИИ увеличивает существующие риски и создает новые.

Напомним, вопросы использования ИИ недавно обсуждались в ходе Открытой конференции Института системного программирования РАН им. В. П. Иванникова. Участники пленарной дискуссии сошлись во мнении, что внедрение ИИ-технологий тормозят проблемы доверия и безопасности таких сервисов.

Следующая главная новость »

Vulnerability Management 2026: что в управлении уязвимостями уже не работает?
Регистрируйтесь на эфир!

Екатерина Быстрова 02 Апреля 2026 - 13:12

Трояны Домашние пользователи Блокировщики рекламы Бесплатная блокировка рекламы

Фальшивый блокировщик рекламы для ChatGPT оказался аддоном-шпионом

OpenAI недавно начала тестировать рекламу в ChatGPT для части пользователей бесплатного тарифа, и уже появились желающие быстро заработать на новой теме. Исследователи из DomainTools обнаружили в Chrome Web Store вредоносное расширение ChatGPT Ad Blocker, которое обещало убрать рекламу из чат-бота, а на деле воровало пользовательские переписки.

OpenAI действительно в последние месяцы начала тесты рекламы в ChatGPT для части пользователей Free и Go, поэтому приманка выглядела вполне правдоподобно.

По данным DomainTools, расширение позиционировалось как «бесплатный и лёгкий» способ «убрать рекламу и оставить ИИ», но его основная задача была совсем другой.

После установки оно внедряло скрипт в страницу ChatGPT, копировало содержимое активного окна чата, сохраняло структуру переписки и большую часть текста, а затем отправляло этот дамп через жёстко прописанный Discord-вебхук в закрытый канал. Исследователи отдельно пишут, что таким образом утекали не только запросы пользователя, но и метаданные, и состояние интерфейса.

Аддон клонировал HTML страницы ChatGPT, убирал часть визуальных элементов вроде стилей и картинок, но оставлял текст и логику диалога. При этом редактировались только очень длинные текстовые фрагменты, а обычные промпты и ответы в большинстве случаев сохранялись целиком. DomainTools также указывает, что похищенные данные принимал Discord-бот с говорящим именем Captain Hook.

Отдельно исследователи связывают расширение с GitHub-аккаунтом krittinkalra, который, по их данным, пересекается с проектами AI4ChatCo и Writecream. На этом фоне авторы отчёта задаются вопросом: не используются ли похожие механики сбора данных и в других продуктах, связанных с этой же персоной. Прямых доказательств этого в отчёте нет, но сам сигнал имеется.

Vulnerability Management 2026: что в управлении уязвимостями уже не работает?
Регистрируйтесь на эфир!