Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Злоумышленники все чаще звонят на городские телефоны

Телефонные мошенники всё чаще переключаются на стационарные телефоны. Это связано с более слабой защитой фиксированной связи на уровне сети, а также с отсутствием определителей номера во многих домах. Кроме того, стационарные номера сегодня используют реже и почти не оставляют их в качестве контактных. Поэтому любые входящие вызовы на них воспринимаются как более «доверительные».

О тенденции рассказал РИА Новости руководитель направления антифрода «Билайна» Александр Фадеев. По его словам, резкий рост таких звонков начался летом 2025 года. Уже в июне об активизации злоумышленников, использующих стационарные номера, предупреждал депутат Госдумы Антон Немкин.

«Городские телефоны — лёгкая мишень: в отличие от мобильных, они не защищены на уровне сети, и далеко не у всех есть определитель номера. При этом ими чаще пользуются пожилые люди и дети», — пояснил представитель «Билайна».

Среди мошеннических сценариев по-прежнему заметную долю занимает тема «продления абонентского договора». Именно с неё началась новая волна звонков на стационарные телефоны прошлым летом. Конечная цель злоумышленников — «угон» аккаунта на Госуслугах или развитие двухступенчатой схемы с последующей кражей сбережений.

В числе новых сценариев Александр Фадеев назвал «оплату просроченных счетов» за услуги ЖКХ и ресурсоснабжающих организаций, а также «замену счётчиков». Популярны и легенды о предстоящей модернизации телефонной линии, бесплатной замене оборудования, переоформлении документов для пенсионного фонда или записи в поликлинику. Во всех случаях задача одна — получить персональные и платёжные данные, а иногда и запустить многоступенчатую схему хищения средств.

RSS: Новости на портале Anti-Malware.ru