В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

В GPT-5 нашли уязвимость: ответы могут формировать более слабые модели

Исследователи из Adversa AI сообщили о необычной уязвимости в GPT-5, которая получила название PROMISQROUTE. Суть проблемы в том, что ответы пользователю не всегда формируются самой GPT-5: внутри работает специальный «роутер», который решает, какой именно из моделей поручить обработку запроса. И это может быть как GPT-5 Pro, так и GPT-4o, GPT-3.5 или облегчённые версии GPT-5.

Такой подход экономит ресурсы: сложные задачи достаются самой «тяжёлой» модели, а простые — более лёгким и дешёвым. По оценкам Adversa, это может экономить OpenAI до 1,86 млрд долларов в год. Но у схемы есть обратная сторона — роутер можно обмануть.

Учёные выяснили, что с помощью определённых «триггерных» фраз пользователь может заставить систему перенаправить свой запрос на менее защищённую модель.

Это значит, что старые джейлбрейки, которые GPT-5 сама по себе блокировала, снова начинают работать — если запрос сначала попадает к «слабому звену».

Опасность здесь не только в том, что повышается риск галлюцинаций. Хакер может сознательно подменить модель и добиться выполнения инструкций, которые GPT-5 Pro обычно отвергла бы. Таким образом, уязвимость сводит защиту всей системы к уровню самой уязвимой модели внутри.

Решение вроде бы простое — отключить маршрутизацию и использовать всегда GPT-5 Pro. Но это замедлит работу и сделает её дороже. А бизнес-модель OpenAI построена на скорости и оптимизации расходов.

«GPT-5 нужно делать безопаснее — либо поставить защиту перед роутером, либо довести все модели до единого уровня безопасности. Лучше и то, и другое», — резюмировал глава Adversa AI Алекс Поляков.

Напомним, Недавно мы писали о способе обойти защиту GPT-5 с помощью скрытых историй.

iOS 27 попробует остановить мошенников прямо во время развода по телефону

Apple готовит для iOS 27 новый фреймворк Trust Insights, который должен помогать приложениям замечать, что пользователя прямо сейчас могут разводить мошенники. Причём речь не о классическом антивирусе, а о попытке поймать социальную инженерию в процессе, когда человек сам переводит деньги, меняет настройки аккаунта или отправляет данные.

Apple объясняет проблему просто: такие атаки сложно ловить автоматически, потому что действия выполняет сам пользователь, аутентифицированный и вроде бы легитимный.

Особенно это актуально на фоне скамов с техподдержкой, фейковыми сотрудниками ведомств, семейными ЧП и дипфейками.

Trust Insights будет в основном работать на устройстве и анализировать не содержание сообщений, писем или фотографий, а поведенческие сигналы: паттерны взаимодействия, время, контекст и базовые данные сенсоров.

Если система решит, что пользователя, возможно, инструктируют мошенники, она присвоит операции средний или высокий уровень риска.

 

После этого приложение сможет показать предупреждение, добавить задержку, запросить дополнительную проверку или усложнить выполнение опасного действия. Например, перед платежом, сменой данных аккаунта, отправкой сообщения, подписанием документа или использованием дорогих ресурсов вроде ИИ-инференса.

Apple подчёркивает, что Trust Insights не читает содержимое Фотографий, Сообщений и Почты. Данные анализируются локально, сразу отбрасываются, а на серверы Apple уходит только итоговое значение риска. Там его могут сопоставить с данными аккаунта и признаками необычной активности, после чего система вернёт финальную оценку.

Отключить Trust Insights можно будет в настройках, но Apple предусматривает период ожидания. Логика понятна: мошенник вполне может наказать жертве срочно выключить защиту, иначе деньги пропадут.

Для разработчиков это новый инструмент, который позволит не просто молча проводить операции, а вмешиваться в момент, когда пользователь уже почти наступил на цифровые грабли.

RSS: Новости на портале Anti-Malware.ru