Исследователи показали, как управлять «мыслями» ИИ на лету

Екатерина Быстрова 23 Июля 2025 - 14:38

GenAI (генеративный искусственный интеллект)

...

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Следующая главная новость »

Реагирование на инциденты ИБ: что делать, когда всё уже случилось?
Регистрируйтесь!

Екатерина Быстрова 27 Апреля 2026 - 20:21

Домашние пользователи Корпорации Средства поиска уязвимостей Bug Bounty «Группа Астра»

Группа Астра уже выплатила баг-хантерам более 3 млн рублей

«Группа Астра» разместила на платформе BI.ZONE Bug Bounty пять программ для поиска уязвимостей в своих продуктах. Размер выплат зависит от критичности найденной проблемы. В большинстве программ максимальное вознаграждение составляет 100 тыс. рублей.

Самая крупная выплата предусмотрена за уязвимости в Astra Linux — до 250 тыс. рублей.

Исследователи могут проверять следующие продукты:

DCImanager — платформа для управления физической мультивендорной ИТ-инфраструктурой;
ALD Pro — служба каталога корпоративного класса, импортонезависимый аналог Active Directory;
Clouden — решение для централизованного управления гибридной и мультиоблачной инфраструктурой;
VMmanager — платформа для создания отказоустойчивой среды виртуализации;
Astra Linux — сертифицированная операционная система со встроенными средствами защиты информации.

По данным компании, за время работы с баг-хантерами «Группа Астра» получила более 120 отчётов и выплатила исследователям свыше 3 млн рублей.

В BI.ZONE отмечают, что баг-баунти постепенно становится привычным инструментом для ИТ-компаний. По словам руководителя продукта BI.ZONE Bug Bounty Андрея Лёвкина, «Группа Астра» запускала программы поэтапно и расширяла область тестирования постепенно.

В «Группе Астра» также говорят, что к моменту выхода на Bug Bounty процесс работы с уязвимостями уже был выстроен внутри компании. Однако внешние исследователи помогли обнаружить дополнительные важные проблемы. Директор научно-технического центра информационной безопасности «Группы Астра» Ольга Рябикина назвала Bug Bounty одним из наиболее эффективных способов привлечения сторонней ИБ-экспертизы.

Реагирование на инциденты ИБ: что делать, когда всё уже случилось?
Регистрируйтесь!