В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

Исследователи из Adversa AI сообщили о необычной уязвимости в GPT-5, которая получила название PROMISQROUTE. Суть проблемы в том, что ответы пользователю не всегда формируются самой GPT-5: внутри работает специальный «роутер», который решает, какой именно из моделей поручить обработку запроса. И это может быть как GPT-5 Pro, так и GPT-4o, GPT-3.5 или облегчённые версии GPT-5.

Такой подход экономит ресурсы: сложные задачи достаются самой «тяжёлой» модели, а простые — более лёгким и дешёвым. По оценкам Adversa, это может экономить OpenAI до 1,86 млрд долларов в год. Но у схемы есть обратная сторона — роутер можно обмануть.

Учёные выяснили, что с помощью определённых «триггерных» фраз пользователь может заставить систему перенаправить свой запрос на менее защищённую модель.

Это значит, что старые джейлбрейки, которые GPT-5 сама по себе блокировала, снова начинают работать — если запрос сначала попадает к «слабому звену».

Опасность здесь не только в том, что повышается риск галлюцинаций. Хакер может сознательно подменить модель и добиться выполнения инструкций, которые GPT-5 Pro обычно отвергла бы. Таким образом, уязвимость сводит защиту всей системы к уровню самой уязвимой модели внутри.

Решение вроде бы простое — отключить маршрутизацию и использовать всегда GPT-5 Pro. Но это замедлит работу и сделает её дороже. А бизнес-модель OpenAI построена на скорости и оптимизации расходов.

«GPT-5 нужно делать безопаснее — либо поставить защиту перед роутером, либо довести все модели до единого уровня безопасности. Лучше и то, и другое», — резюмировал глава Adversa AI Алекс Поляков.

Напомним, Недавно мы писали о способе обойти защиту GPT-5 с помощью скрытых историй.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Runtime Radar: на GitHub появился код инструмента для защиты контейнеров

Компания Positive Technologies опубликовала на GitHub собственный продукт с открытым исходным кодом для мониторинга безопасности и реагирования на инциденты в контейнерных средах. Инструмент под названием Runtime Radar помогает отслеживать активность в контейнерах и выявлять подозрительные процессы, сетевые соединения и изменения прав доступа.

Как отмечают в компании, идея проекта — сделать базовый контроль над контейнерной инфраструктурой доступным даже для небольших команд, которым не подходят сложные или дорогие коммерческие системы.

Контейнерные технологии вроде Kubernetes сегодня стали стандартом для развёртывания приложений. Но вместе с ростом их популярности увеличилось и число атак, направленных на среду выполнения — например, на этапе, когда приложение уже запущено.

По словам специалистов, именно этот уровень остаётся уязвимым: большинство инструментов безопасности по-прежнему сосредоточены на стадии разработки и сборки.

Runtime Radar построен на технологиях eBPF и Tetragon, что позволяет в реальном времени анализировать события внутри контейнеров. Система поддерживает централизованное управление несколькими кластерами и интеграцию с уже существующими средствами мониторинга через syslog, SMTP и webhook.

В Positive Technologies говорят, что открытие кода Runtime Radar — часть их инициативы по развитию open-source в области кибербезопасности. Проект уже вызвал интерес у специалистов по ИТ-мониторингу и команд SOC. В будущем разработчики планируют дополнять инструмент новыми функциями.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru