Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Уязвимость в Linux-компоненте PackageKit позволяла получить root

В PackageKit обнаружили серьёзную уязвимость, из-за которой обычный пользователь Linux мог устанавливать пакеты с правами root без аутентификации. Проблема получила идентификатор CVE-2026-41651 и 8,1 балла по CVSS. Уязвимость назвали Pack2TheRoot.

Она связана с состоянием гонки (race condition) типа TOCTOU в обработке флагов транзакций. PackageKit мог проверять одни параметры, а выполнять операцию уже с другими, подменёнными атакующим.

В результате пользователь без высоких прав мог запустить установку произвольных RPM-пакетов от имени root. Это особенно опасно, поскольку вместе с пакетами могут выполняться скрипты установки, а значит, злоумышленник получает удобный путь к компрометации системы.

Проблему обнаружила Red Team компании Deutsche Telekom. По её данным, уязвимость подтверждена в PackageKit версий с 1.0.2 по 1.3.4, но, вероятно, существовала ещё с версии 0.8.1, выпущенной около 14 лет назад.

Среди затронутых систем исследователи называют Ubuntu Desktop и Server, Debian Desktop Trixie, RockyLinux Desktop, Fedora Desktop и Server. Также потенциально уязвимыми могут быть и серверы с установленным Cockpit, поскольку PackageKit является для него опциональной зависимостью. Это может касаться в том числе систем на базе Red Hat Enterprise Linux.

Технические детали исследователи пока раскрывать не стали: по их словам, уязвимость легко эксплуатируется и может за считаные секунды привести к получению root-доступа или другой форме компрометации системы.

При этом атака оставляет заметные следы. После успешной эксплуатации демон PackageKit падает из-за ошибки утверждения, а затем systemd перезапускает его при следующем обращении через D-Bus. Поэтому сбой можно увидеть в системных журналах.

Уязвимость исправили в PackageKit 1.3.5. Патчи также уже вошли в свежие обновления Debian, Ubuntu и Fedora.

RSS: Новости на портале Anti-Malware.ru