Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

ГК «Солар» взяла курс на защиту искусственного интеллекта

На ЦИПР-2026 группа компаний «Солар» обозначила новый стратегический фокус — развитие решений для безопасности искусственного интеллекта. Компания выступила технологическим партнёром конференции по информационной безопасности и сосредоточила свою программу вокруг темы ИИ, его внедрения в бизнес и связанных с этим киберрисков.

По данным совместного исследования «Солара», Б1, Ассоциации ФинТех и HiveTrace, 60% российских компаний, внедряющих ИИ в бизнес-процессы, не уверены в защищённости таких решений.

Среди основных рисков участники опроса называют утечки данных, галлюцинации моделей, компрометацию источников данных и баз знаний, а также использование ИИ злоумышленниками для автоматизации атак, генерации вредоносного кода и создания дипфейков.

В «Соларе» считают, что вслед за рынком ИИ будет развиваться и рынок защиты ИИ. Компания планирует строить платформенный подход к контролю ИИ-трафика, безопасному использованию нейросетей сотрудниками, защите от утечек, Data Poisoning и рисков, связанных с ИИ-агентами.

Отдельно на ЦИПР обсуждали практические кейсы внедрения ИИ. В партнёрской сессии «Солара» участвовали представители «Ростелекома», «Делимобиля», Альфа-Банка, «АльфаСтрахования», ТМК и «Циана». Компании рассказывали, как используют ИИ в контакт-центрах, разработке, аналитике, страховании, промышленности, модерации и клиентских сервисах.

«Солар» также отвечал за безопасность веб-ресурсов ЦИПР. Перед мероприятием специалисты провели анализ инфраструктуры, а в дни конференции центр Solar JSOC круглосуточно мониторил события и отражал атаки, в том числе с использованием ИИ.

Кроме того, на площадке ЦИПР компания подписала соглашения о сотрудничестве с Т1, группой «Астра», ТМК, «АЛМИ Партнер», «1С-Битрикс» и нижегородским кампусом НИУ ВШЭ.

RSS: Новости на портале Anti-Malware.ru