В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

Исследователи из Adversa AI сообщили о необычной уязвимости в GPT-5, которая получила название PROMISQROUTE. Суть проблемы в том, что ответы пользователю не всегда формируются самой GPT-5: внутри работает специальный «роутер», который решает, какой именно из моделей поручить обработку запроса. И это может быть как GPT-5 Pro, так и GPT-4o, GPT-3.5 или облегчённые версии GPT-5.

Такой подход экономит ресурсы: сложные задачи достаются самой «тяжёлой» модели, а простые — более лёгким и дешёвым. По оценкам Adversa, это может экономить OpenAI до 1,86 млрд долларов в год. Но у схемы есть обратная сторона — роутер можно обмануть.

Учёные выяснили, что с помощью определённых «триггерных» фраз пользователь может заставить систему перенаправить свой запрос на менее защищённую модель.

Это значит, что старые джейлбрейки, которые GPT-5 сама по себе блокировала, снова начинают работать — если запрос сначала попадает к «слабому звену».

Опасность здесь не только в том, что повышается риск галлюцинаций. Хакер может сознательно подменить модель и добиться выполнения инструкций, которые GPT-5 Pro обычно отвергла бы. Таким образом, уязвимость сводит защиту всей системы к уровню самой уязвимой модели внутри.

Решение вроде бы простое — отключить маршрутизацию и использовать всегда GPT-5 Pro. Но это замедлит работу и сделает её дороже. А бизнес-модель OpenAI построена на скорости и оптимизации расходов.

«GPT-5 нужно делать безопаснее — либо поставить защиту перед роутером, либо довести все модели до единого уровня безопасности. Лучше и то, и другое», — резюмировал глава Adversa AI Алекс Поляков.

Напомним, Недавно мы писали о способе обойти защиту GPT-5 с помощью скрытых историй.

В ИИ-приложениях почти каждая третья уязвимость оказалась высокорисковой

ИИ-приложения снова напоминают: если к обычному веб-сервису прикрутить большую языковую модель, магия появляется не только в презентации, но и в списке уязвимостей. По данным «Информзащиты», в 2026 году 32% уязвимостей, найденных при пентестах ИИ- и LLM-приложений, относятся к высокорисковым.

Для сравнения: по всем классам активов этот показатель составляет около 12%. То есть риск-профиль ИИ-приложений оказался в 2,7 раза выше среднего.

За второй год наблюдений пропорция не изменилась. Более того, медианный срок устранения серьёзных находок вырос с 19 дней в 2025 году до 36 дней в 2026-м.

Проблема в том, что ИИ-системы тащат за собой сразу два слоя риска. Первый — классика веба и API: аутентификация, авторизация, инъекции, секреты, обработка пользовательского ввода.

Второй — уже нейросетевой зоопарк: инъекции в промпт, утечки системного промпта, ошибки RAG-контуров, отравление данных, небезопасная обработка ответов LLM, проблемы в векторных хранилищах и отказ в обслуживании на уровне модели.

Особенно весело становится, когда модель подключают к корпоративным данным, CRM, базе знаний, API или инструментам автоматизации. В этот момент чат-бот перестаёт быть просто болталкой и получает возможность влиять на процессы. А ошибка в правах или логике вызовов превращает его в аккуратную дверь во внутренние системы.

Автоматическими сканерами всё это ловится плохо. По данным исследования, 78% команд сталкивались с тем, что такие средства пропускали критические уязвимости. Поэтому готовность полностью доверить пентесты автономным инструментам за год упала с 29% до 9%.

С устранением тоже не праздник. В 2026 году компании закрывали только 38,4% высокорисковых находок в ИИ / LLM-приложениях — это самый низкий показатель среди типов тестирования. Для API, например, он составил 77,3%.

RSS: Новости на портале Anti-Malware.ru