Опасные стихи раскрыли уязвимости ИИ: до 60% успешных обходов

Опасные стихи раскрыли уязвимости ИИ: до 60% успешных обходов

Опасные стихи раскрыли уязвимости ИИ: до 60% успешных обходов

Исследователи из DEXAI нашли нестандартный, но весьма результативный способ обхода защит современных языковых моделей: оказалось, что многие ИИ куда менее устойчивы к опасным запросам, если скрыть их в стихотворении. Команда протестировала 25 популярных нейросетей и выяснила, что «поэтические» запросы обходят защиту примерно в 60% случаев.

У отдельных моделей уровень уязвимости подбирался почти к 100%. Для эксперимента специалисты подготовили около двадцати опасных стихов — тексты, в которых вредоносный смысл сохранялся полностью, но был завуалирован рифмой и метафорами.

 

Темы брались самые жёсткие: от создания опасных веществ до методов манипуляции сознанием. Чтобы добиться нужного эффекта, исследователи сначала формулировали вредоносные запросы, а затем превращали их в стихи при помощи другой ИИ-модели.

Контраст получился впечатляющим. На прямые запросы модели давали опасные ответы лишь в 8% случаев, тогда как стихотворная форма увеличивала вероятность прорыва защит до 43% и выше.

 

Разницу в подходах к безопасности между западными и российскими ИИ-комплексами пояснил директор по ИИ «Группы Астра» Станислав Ежов. По его словам, западные LLM часто можно обойти «простыми метафорами», тогда как отечественные системы строятся по более строгой архитектуре — с контролем безопасности на каждом этапе.

Он отметил, что в компании внедряют доверенный ИИ-комплекс «Тессеракт», разработанный с защитой ключевых компонентов на уровне ФСТЭК.

Ежов подчёркивает:

«Проблема уязвимости ИИ — это не просто интересный технический нюанс, а вопрос стратегической безопасности. Поэтому внимание к качеству защитных механизмов сегодня становится критически важным».

Торвальдс подтвердил: Linux Kernel 7.0 почти готов и ускорит игры

Релизы ядра Linux долгое время интересовали в основном серверных администраторов и энтузиастов. Но с ростом популярности Steam Deck, SteamOS и игровых компьютеров на Linux ситуация меняется. И грядущий Linux Kernel 7.0 как раз из тех обновлений, на которые стоит обратить внимание не только серверщикам.

Как сообщает Phoronix, новая версия ядра принесёт целый набор улучшений производительности.

Большая часть изменений по-прежнему ориентирована на серверные нагрузки, но есть и новшества, которые потенциально улучшат отзывчивость системы и игровой опыт.

Самой интересной функцией называют TIP Time Slice Extension. Она позволяет приложению временно попросить у планировщика ядра немного дополнительного процессорного времени, если в данный момент выполняется критически важная задача.

Проще говоря, если игра или аудиоприложение понимает, что его вот-вот «прервут» в самый неподходящий момент, оно может вежливо попросить: «подожди секунду, я почти закончил». В теории это должно привести к более плавной работе тяжёлых приложений, снижению фризов и, возможно, к улучшению 1% low FPS в играх. Практику, правда, покажут только реальные тесты.

Ещё одно важное изменение — новый механизм управления памятью под названием sheaves. Формально он рассчитан на серверы, но может быть полезен и на десктопах.

Многие ресурсоёмкие приложения и игры постоянно выделяют и освобождают память, что иногда приводит к скачкам задержек при высокой нагрузке на CPU. Оптимизации sheaves потенциально помогут сгладить такие пики и сделать поведение системы более стабильным.

Для серверных сценариев в Linux Kernel 7.0 тоже много интересного:

  • Open Tree Namespace ускоряет создание контейнеров в Docker, Kubernetes и микросервисах;
  • улучшения в IO_uring и zero-copy networking снижают нагрузку на CPU при высоких скоростях сети (10 Гбит/с и выше);
  • дополнительная настройка планировщика помогает веб- и базам данных ровнее переживать пиковые нагрузки.

Если всё пойдёт по плану, Ubuntu 26 LTS может получить новое ядро уже в апреле. Примерно в те же сроки ожидается Fedora 44.

Ну и да — в Linux Kernel 7.0 наконец-то можно будет менять логотип Tux при загрузке. Мелочь, а приятно.

RSS: Новости на портале Anti-Malware.ru