Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Yandex B2B Tech добавила ИИ-инструменты для поиска уязвимостей в коде

Yandex B2B Tech обновила платформу для разработки SourceCraft, добавив новые ИИ-инструменты для работы с уязвимостями и командной разработки. Обновления уже доступны всем пользователям и ориентированы не только на индивидуальные проекты, но и на работу с крупными корпоративными кодовыми базами.

Главное новшество — усиление блока безопасности. На платформе появился ИИ-агент на базе SourceCraft Code Assistant, который автоматически проверяет код на уязвимости и оформляет найденные проблемы в виде карточек.

В каждой из них ИИ помогает разобраться, насколько риск серьёзный, каким образом уязвимость может быть использована и как её корректно исправить — с примерами безопасного кода. За счёт этого анализ, который раньше мог занимать часы и требовать участия профильных специалистов, теперь укладывается в минуты.

Дополнительно в SourceCraft появился центр контроля уязвимостей с интерактивными дашбордами. Они показывают, какие системы затронуты, какие типы уязвимостей встречаются чаще всего и где сосредоточены зоны повышенного риска. Это упрощает приоритизацию и помогает смотреть на безопасность не фрагментарно, а в масштабе всей разработки.

Обновления затронули и командную работу. ИИ-агент SourceCraft Code Assistant теперь автоматически формирует краткие описания изменений в коде, чтобы разработчикам было проще ориентироваться в правках коллег. Также в платформе появилась возможность фиксировать состав версий ПО и отслеживать их готовность, что делает процесс разработки более прозрачным и упрощает координацию между командами.

В Yandex B2B Tech отмечают, что в крупных организациях с сотнями разработчиков и тысячами репозиториев критически важны прозрачность рисков и управляемость процессов. По словам руководителя платформы SourceCraft Дмитрия Иванова, в дальнейшем платформа будет развиваться в сторону мультиагентных ИИ-помощников, которые смогут учитывать контекст всей компании, помогать командам взаимодействовать друг с другом и показывать руководству, как технические уязвимости влияют на бизнес-процессы.

RSS: Новости на портале Anti-Malware.ru