Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Атаки на SharePoint связали с уязвимостью пятилетней давности

Эксперты «Лаборатории Касперского» разобрали новую волну атак на серверы Microsoft SharePoint и пришли к выводу, что в её основе лежит старая уязвимость пятилетней давности. Исследователи изучили эксплойт ToolShell, который использовался в атаках, и обнаружили сходство с CVE-2020-1147.

Напомним, CVE-2020-1147 — уязвимость, обнаруженная в SharePoint ещё в 2020 году. Похоже, тогда брешь закрыли не до конца, и только обновление 2025 года (CVE-2025-53770) устранило проблему полностью.

Дополнительный анализ показал, что уязвимости CVE-2025-49704 и CVE-2025-49706, которые были закрыты 8 июля, тоже имели общий корень с CVE-2020-1147.

Причём обойти защиту можно было, просто добавив один символ — «/» — в код эксплойта. Microsoft позже выпустила заплатки, устранившие этот обход, и присвоила им отдельные номера.

Атаки на SharePoint фиксировались по всему миру — в том числе в России, Египте, Иордании, Вьетнаме и Замбии. Под удар попали организации из разных сфер: финансы, госсектор, промышленность, а также сельское и лесное хозяйство.

Например, с помощью соответствующего эксплойта киберпреступники атаковали Министерство внутренней безопасности США. То же касается попытки атаки на Национальное управление ядерной безопасности США.

Специалисты напоминают, что старые уязвимости вроде ProxyLogon, PrintNightmare и EternalBlue до сих пор активно используются злоумышленниками.

Если обновления не установлены вовремя, система остаётся уязвимой. С ToolShell, по всей видимости, может случиться то же самое: эксплойт уже опубликован, прост в использовании и, скорее всего, скоро появится в инструментах, которыми пользуются хакеры.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru