Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Критическая уязвимость OnePlus OxygenOS раскрывает ваши СМС и MFA-коды

Исследователи из Rapid7 рассказали о критической дыре в безопасности смартфонов OnePlus. Уязвимость получила номер CVE-2025-10184 и связана с оболочкой OxygenOS. Суть проблемы в том, что любое установленное приложение может без спроса читать ваши СМС и ММС — включая коды двухфакторной аутентификации, банковские уведомления и личную переписку.

И при этом пользователь никак не узнает, что его сообщения уже «утекли». Виноваты в этом встроенные провайдеры контента OxygenOS — ServiceNumberProvider, PushMessageProvider и PushShopProvider.

Они неправильно настроены и дают доступ к данным без проверки разрешений. Более того, исследователи нашли и возможность «слепой» SQL-инъекции, то есть злоумышленники могут выкачивать СМС буквально посимвольно.

Подтверждено, что баг работает на:

  • OnePlus 8T (OxygenOS 12, сборка KB2003_11_C.33).
  • OnePlus 10 Pro 5G (OxygenOS 14–15, сборки NE2213_14.0.0.700, 15.0.0.502, 15.0.0.700, 15.0.0.901).

Любопытно, что более старые версии OxygenOS 11 уязвимости не подвержены. Видимо, ошибка появилась, начиная с OxygenOS 12 в 2021 году.

Особенно опасно то, что уязвимость напрямую подрывает работу СМС-МФА. Приложение может тихо украсть одноразовый код, и пользователь ничего не заметит.

Rapid7 пытались связаться с OnePlus, но безуспешно. Формально у компании есть баг-баунти, но его условия оказались слишком жёсткими для исследователей. В итоге баг до сих пор не закрыт.

Что делать пользователям:

  • Стараться ставить только проверенные приложения.
  • Перейти с СМС-подтверждений на аутентификаторы (Google Authenticator, Authy и т. п.).
  • Для переписки использовать мессенджеры со сквозным шифрованием.
  • Где возможно, заменить СМС-уведомления на пуш-оповещения.

Пока OnePlus молчит, пользователям остаётся только осторожность.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru