Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Касперская объяснила, почему борьба с VPN только раззадорит разработчиков

Наталья Касперская, сооснователь «Лаборатории Касперского» и президент ГК InfoWatch, раскритиковала попытки ограничивать VPN и сетевой трафик в России. По её словам, такие меры не только малоэффективны, но и могут ухудшать работу интернета в целом.

Главный аргумент — поведение самих разработчиков. Это технически подкованные пользователи, которые не будут обращаться за разрешениями или ждать инструкций, а просто найдут способ обойти ограничения.

Касперская привела в своём телеграм-канале показательный пример: в одной из её компаний Роскомнадзор по ошибке заблокировал публичный сервис. На восстановление доступа у сотрудников ушло около 20 минут — они просто настроили обход через VPN.

По её словам, именно так ситуация и будет развиваться: разработчики не станут регистрировать свои VPN или пытаться попасть в «белые списки», а будут поднимать собственные решения. В стране таких специалистов около миллиона, и у многих из них есть «спортивный интерес» обходить ограничения.

Отдельная проблема — работа с зарубежными сервисами. Многие из них ограничивают доступ с российских IP-адресов, включая популярные ИИ-модели. Поэтому разработчики и так вынуждены использовать VPN, причём часто не корпоративные, а собственные.

Касперская также отмечает, что полностью заблокировать VPN технически невозможно. Такие технологии используются уже десятки лет и тесно переплетены с базовыми интернет-протоколами. Попытки их фильтрации через DPI могут приводить к сбоям и ложным срабатываниям — например, затрагивать обычный HTTPS-трафик.

Кроме того, доступ к «разрешённым» VPN сейчас есть лишь у небольшой части компаний. По словам Касперской, речь идёт примерно о 1,5 тыс. организаций при общем количестве в несколько миллионов.

В итоге ограничения, по её мнению, бьют не только по обходу блокировок, но и по обычным пользователям; в том числе тем, кто находится за границей и сталкивается с проблемами доступа к российским сервисам.

В более широком смысле Касперская считает, что такие вопросы нельзя решить только техническими методами. Ограничение доступа к контенту и платформам — это социальная и политическая задача. И попытки «закрыть всё технологиями» часто приводят к обратному эффекту: пользователи просто находят новые способы обхода.

Ранее в этом месяце Наталья Касперская извинилась перед Роскомнадзором за свой пост о причинах масштабного сбоя, который 3 апреля затронул банковские сервисы и СБП.

RSS: Новости на портале Anti-Malware.ru