Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

600 миллионов атак на сайты: хакеры идут по следу денег и данных

Количество веб-атак на сайты российских компаний по-прежнему остаётся очень высоким. Но хакеры выбирают разные цели и подходы в зависимости от отрасли. Так, в финансовом секторе они чаще всего стремятся получить контроль над серверной частью инфраструктуры — для этого используют атаки типа RCE.

Согласно статистике Вебмониторэкс, ИТ-компаниях и онлайн-торговле их больше интересуют данные клиентов, а значит, в ход идут SQL-инъекции и XSS-атаки.

По данным за первую половину 2025 года, всего было зафиксировано и заблокировано более 600 миллионов веб-атак — это ощутимо больше, чем за тот же период в прошлом году.

Чаще всего атаковали финансовые организации — в среднем по 4,1 млн атак на одну. У ИТ-компаний этот показатель составил 2,6 млн, в онлайн-торговле и медиа — около 1,2 млн атак на компанию.

Финансовый сектор особенно страдает от удалённого исполнения кода (RCE). Такие уязвимости позволяют хакерам через веб-приложение пробраться в серверную часть, получить доступ к инфраструктуре, украсть данные клиентов и даже проводить несанкционированные транзакции. Это серьёзная угроза: RCE-атаки часто реализуют хорошо подготовленные хакеры или даже APT-группировки, а последствия могут быть катастрофическими.

В ИТ-сфере наибольшую опасность представляют SQL-инъекции и сканирование ботами — на каждый из этих типов атак пришлось по 20%. Сначала боты собирают информацию о приложении, его структуре и уязвимостях, а потом начинается атака. SQL-инъекции позволяют хакерам влезать в базу данных, где хранятся чувствительные данные, включая ключи, токены и конфигурации клиентов.

У онлайн-ретейла основной головной болью стали XSS-атаки. Почти половина всех атак в этой сфере — именно они. Хакеры внедряют вредоносный код в веб-страницу, и как только пользователь заходит на сайт, код срабатывает. Так можно украсть логины, пароли, данные банковской карты — всё, что человек вводит в формы.

Особенно уязвимыми оказываются интерактивные элементы сайтов — поиск, отзывы, оплата. Много пользовательского ввода и динамического контента — это идеальная среда для XSS. При этом обычному человеку сложно заметить, что сайт подменён или заражён.

Если говорить в целом, то XSS-атаки — самая распространённая угроза (25% всех атак с января по июнь). Далее идут RCE (14%) и атаки типа Path Traversal (11%), при которых злоумышленники получают доступ к файлам за пределами папки веб-приложения.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru