NIST представил новые меры для защиты ИИ-систем

NIST представил новые меры для защиты ИИ-систем

NIST представил новые меры для защиты ИИ-систем

Национальный институт стандартов и технологий США (NIST) представил инициативу по усилению кибербезопасности систем искусственного интеллекта. Ведомство выпустило концептуальный документ и план действий по разработке специальных Control Overlays для стандарта NIST SP 800-53, которые будут учитывать риски именно в сфере ИИ.

Почему это важно: существующие подходы к киберзащите часто не охватывают угрозы, характерные для ИИ — такие как инъекция промпта, отравление моделей, утечки данных через интерфейсы и манипуляции решениями алгоритмов. Новые контрольные наборы должны закрыть эти пробелы.

Что входит в инициативу:

  • отдельные меры безопасности для генеративных ИИ, предиктивных систем и мультиагентных архитектур;
  • рекомендации для разработчиков — чтобы безопасность учитывалась на всех этапах жизненного цикла ИИ, а не «прикручивалась» постфактум;
  • расширение существующего стандарта SP 800-53 и дополнение к уже принятой AI Risk Management Framework (AI RMF 1.0).

Чтобы собрать обратную связь и сделать процесс максимально открытым, NIST запустил отдельный Slack-канал «#NIST-Overlays-Securing-AI», где к обсуждению приглашают исследователей, разработчиков, администраторов и специалистов по управлению рисками. Там будут публиковаться обновления, проводиться дискуссии и приниматься предложения по финальной версии.

Инициатива NIST может стать новым ориентиром не только для США, но и для глобального рынка — именно такие стандартизированные меры помогут компаниям по всему миру подходить к безопасности ИИ более системно.

Напомним, на днях NIST выпустил рекомендации по выявлению поддельных фото в документах. Документ под названием FATE MORPH 4B (PDF) описывает, как работают видоизменённые изображения, и объясняет, какие шаги должны предпринимать организации — от паспортных столов до пограничных служб.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

Исследователи из Adversa AI сообщили о необычной уязвимости в GPT-5, которая получила название PROMISQROUTE. Суть проблемы в том, что ответы пользователю не всегда формируются самой GPT-5: внутри работает специальный «роутер», который решает, какой именно из моделей поручить обработку запроса. И это может быть как GPT-5 Pro, так и GPT-4o, GPT-3.5 или облегчённые версии GPT-5.

Такой подход экономит ресурсы: сложные задачи достаются самой «тяжёлой» модели, а простые — более лёгким и дешёвым. По оценкам Adversa, это может экономить OpenAI до 1,86 млрд долларов в год. Но у схемы есть обратная сторона — роутер можно обмануть.

Учёные выяснили, что с помощью определённых «триггерных» фраз пользователь может заставить систему перенаправить свой запрос на менее защищённую модель.

Это значит, что старые джейлбрейки, которые GPT-5 сама по себе блокировала, снова начинают работать — если запрос сначала попадает к «слабому звену».

Опасность здесь не только в том, что повышается риск галлюцинаций. Хакер может сознательно подменить модель и добиться выполнения инструкций, которые GPT-5 Pro обычно отвергла бы. Таким образом, уязвимость сводит защиту всей системы к уровню самой уязвимой модели внутри.

Решение вроде бы простое — отключить маршрутизацию и использовать всегда GPT-5 Pro. Но это замедлит работу и сделает её дороже. А бизнес-модель OpenAI построена на скорости и оптимизации расходов.

«GPT-5 нужно делать безопаснее — либо поставить защиту перед роутером, либо довести все модели до единого уровня безопасности. Лучше и то, и другое», — резюмировал глава Adversa AI Алекс Поляков.

Напомним, Недавно мы писали о способе обойти защиту GPT-5 с помощью скрытых историй.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru