Опасные стихи раскрыли уязвимости ИИ: до 60% успешных обходов

Опасные стихи раскрыли уязвимости ИИ: до 60% успешных обходов

Опасные стихи раскрыли уязвимости ИИ: до 60% успешных обходов

Исследователи из DEXAI нашли нестандартный, но весьма результативный способ обхода защит современных языковых моделей: оказалось, что многие ИИ куда менее устойчивы к опасным запросам, если скрыть их в стихотворении. Команда протестировала 25 популярных нейросетей и выяснила, что «поэтические» запросы обходят защиту примерно в 60% случаев.

У отдельных моделей уровень уязвимости подбирался почти к 100%. Для эксперимента специалисты подготовили около двадцати опасных стихов — тексты, в которых вредоносный смысл сохранялся полностью, но был завуалирован рифмой и метафорами.

 

Темы брались самые жёсткие: от создания опасных веществ до методов манипуляции сознанием. Чтобы добиться нужного эффекта, исследователи сначала формулировали вредоносные запросы, а затем превращали их в стихи при помощи другой ИИ-модели.

Контраст получился впечатляющим. На прямые запросы модели давали опасные ответы лишь в 8% случаев, тогда как стихотворная форма увеличивала вероятность прорыва защит до 43% и выше.

 

Разницу в подходах к безопасности между западными и российскими ИИ-комплексами пояснил директор по ИИ «Группы Астра» Станислав Ежов. По его словам, западные LLM часто можно обойти «простыми метафорами», тогда как отечественные системы строятся по более строгой архитектуре — с контролем безопасности на каждом этапе.

Он отметил, что в компании внедряют доверенный ИИ-комплекс «Тессеракт», разработанный с защитой ключевых компонентов на уровне ФСТЭК.

Ежов подчёркивает:

«Проблема уязвимости ИИ — это не просто интересный технический нюанс, а вопрос стратегической безопасности. Поэтому внимание к качеству защитных механизмов сегодня становится критически важным».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Польский регулятор обвинил Apple в сборе данных при запрете на отслеживание

Польский антимонопольный регулятор обвинил Apple в том, что корпорация якобы вводит пользователей в заблуждение относительно уровня конфиденциальности, который предоставляет функция App Tracking Transparency (ATT). По мнению ведомства, Apple может использовать пользовательские данные даже тогда, когда человек запретил отслеживание.

Как пишет Reuters, Apple с обвинениями не согласна и заявляет, что давление регуляторов может вынудить её вовсе отключить эту функцию для пользователей в ЕС.

Это уже не первый конфликт компании с европейскими правилами. ЕС требует, чтобы Apple обеспечивала равные условия для сторонних разработчиков: если у Apple есть доступ к определённым данным, то и конкуренты должны иметь возможность получать аналогичную информацию.

Apple, в свою очередь, утверждает, что доступ к данным у неё организован так, чтобы приватность пользователей соблюдалась максимально, и она не может гарантировать, что сторонние компании будут действовать так же.

Последний пример — ситуация с Apple Watch. Часы могли получать историю Wi-Fi подключений с привязанного iPhone, но другие производители — нет. Вместо того чтобы раскрыть эти данные, Apple отключила функцию в моделях для ЕС.

Претензии к App Tracking Transparency

ATT требует, чтобы приложения спрашивали разрешение на отслеживание пользователя. Если человек говорит «нет», разработчики не могут использовать рекламный идентификатор устройства.

Польский регулятор полагает, что Apple якобы продолжает собирать данные для показа таргетированной рекламы в своих сервисах, например в App Store, независимо от согласия пользователя.

Глава UOKiK Томаш Хростный заявил, что политика ATT «могла ввести пользователей в заблуждение относительно уровня защиты персональных данных и одновременно дала Apple конкурентное преимущество».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru