Исследователи показали, как управлять «мыслями» ИИ на лету

Екатерина Быстрова 23 Июля 2025 - 14:38

GenAI (генеративный искусственный интеллект)

...

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Следующая главная новость »

Реагирование на инциденты ИБ: что делать, когда всё уже случилось?
Регистрируйтесь!

Екатерина Быстрова 28 Апреля 2026 - 10:05

Соответствие законодательству РФ Общее Персональный VPN Анонимайзеры Системы контентной веб-фильтрации Наталья Касперская

Касперская объяснила, почему борьба с VPN только раззадорит разработчиков

Наталья Касперская, сооснователь «Лаборатории Касперского» и президент ГК InfoWatch, раскритиковала попытки ограничивать VPN и сетевой трафик в России. По её словам, такие меры не только малоэффективны, но и могут ухудшать работу интернета в целом.

Главный аргумент — поведение самих разработчиков. Это технически подкованные пользователи, которые не будут обращаться за разрешениями или ждать инструкций, а просто найдут способ обойти ограничения.

Касперская привела в своём телеграм-канале показательный пример: в одной из её компаний Роскомнадзор по ошибке заблокировал публичный сервис. На восстановление доступа у сотрудников ушло около 20 минут — они просто настроили обход через VPN.

По её словам, именно так ситуация и будет развиваться: разработчики не станут регистрировать свои VPN или пытаться попасть в «белые списки», а будут поднимать собственные решения. В стране таких специалистов около миллиона, и у многих из них есть «спортивный интерес» обходить ограничения.

Отдельная проблема — работа с зарубежными сервисами. Многие из них ограничивают доступ с российских IP-адресов, включая популярные ИИ-модели. Поэтому разработчики и так вынуждены использовать VPN, причём часто не корпоративные, а собственные.

Касперская также отмечает, что полностью заблокировать VPN технически невозможно. Такие технологии используются уже десятки лет и тесно переплетены с базовыми интернет-протоколами. Попытки их фильтрации через DPI могут приводить к сбоям и ложным срабатываниям — например, затрагивать обычный HTTPS-трафик.

Кроме того, доступ к «разрешённым» VPN сейчас есть лишь у небольшой части компаний. По словам Касперской, речь идёт примерно о 1,5 тыс. организаций при общем количестве в несколько миллионов.

В итоге ограничения, по её мнению, бьют не только по обходу блокировок, но и по обычным пользователям; в том числе тем, кто находится за границей и сталкивается с проблемами доступа к российским сервисам.

В более широком смысле Касперская считает, что такие вопросы нельзя решить только техническими методами. Ограничение доступа к контенту и платформам — это социальная и политическая задача. И попытки «закрыть всё технологиями» часто приводят к обратному эффекту: пользователи просто находят новые способы обхода.

Ранее в этом месяце Наталья Касперская извинилась перед Роскомнадзором за свой пост о причинах масштабного сбоя, который 3 апреля затронул банковские сервисы и СБП.

Реагирование на инциденты ИБ: что делать, когда всё уже случилось?
Регистрируйтесь!