Исследователи показали, как управлять «мыслями» ИИ на лету

Екатерина Быстрова 23 Июля 2025 - 14:38

GenAI (генеративный искусственный интеллект)

...

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

Следующая главная новость »

Реагирование на инциденты ИБ: что делать, когда всё уже случилось?
Регистрируйтесь!

Екатерина Быстрова 27 Апреля 2026 - 17:12

BI.ZONE EDR BI.ZONE Secure SD-WAN BI.ZONE TDR Корпорации BI.ZONE

На BI.ZONE Days 2026 озвучили планы по развитию продуктового портфеля

BI.ZONE в 2025 году завершила переход к платформенному подходу и объединила более 40 продуктов и сервисов в единую экосистему кибербезопасности. О дальнейших планах компания рассказала на ежегодном мероприятии BI.ZONE Days 2026. Одним из ключевых направлений станет развитие платформы защиты конечных точек.

Сейчас она строится на базе BI.ZONE EDR, а к концу 2027 года должна закрывать весь цикл работы с атакой: от сокращения поверхности атаки до поиска следов ранней компрометации и реагирования на инциденты.

Для этого в BI.ZONE EDR внедряются антивирусные технологии NANO Security, которую компания приобрела в 2025 году. Кодовая база уже интегрирована в процессы разработки, также завершён перенос инфраструктуры антивирусной лаборатории.

По словам директора по продуктам BI.ZONE Теймура Хеирхабарова, обновлённый BI.ZONE EDR с антивирусным ядром планируется представить в III квартале 2026 года. До конца года компания также рассчитывает получить сертификат ФСТЭК и встроить антивирусное ядро в BI.ZONE Sandbox и BI.ZONE Mail Security. В дальнейшем эти технологии планируют использовать и в платформе сетевой безопасности на базе BI.ZONE SD-WAN.

Параллельно BI.ZONE развивает направление vulnerability management. Речь идёт не только о поиске уязвимостей в ОС и приложениях, но и о проверке контейнеров. Также в продукты защиты конечных точек будут добавлять возможности сбора forensic-артефактов и автоматической оценки инфраструктуры на признаки компрометации.

Ещё одно важное направление — сетевая безопасность. BI.ZONE продолжит развивать платформу на базе BI.ZONE Secure SD-WAN. До конца III квартала 2026 года компания планирует заметно повысить производительность функций межсетевого экрана — до 270 Гбит/с — за счёт собственной реализации Data Plane. Также на 2026 год запланирован релиз со встроенным DPI-движком собственной разработки. На его базе появятся функции IDS/IPS и L7-фильтрации.

На BI.ZONE Days 2026 также объявили о подготовке BI.ZONE WAF 2.0. Это новая платформа защиты веб-приложений с архитектурой, рассчитанной на многоуровневую обработку трафика и интеграцию с другими инструментами безопасности. Бета-релиз для пилотных внедрений ожидается в III квартале 2026 года.

Кроме того, в конце 2026 года первая версия BI.ZONE Sandbox должна стать доступна в составе BI.ZONE EDR. Компания также рассказала об обновлениях в продуктах классов PAM, SGRC, ZTNA и в решении BI.ZONE Mail Security.

Отдельный акцент BI.ZONE сделала на искусственном интеллекте. В 2026 году компания планирует переводить отдельные решения в формат agentic-продуктов — систем, где часть задач выполняют ИИ-агенты. Цель — постепенно прийти к более автономной платформе кибербезопасности, которая сможет быстрее реагировать на новые угрозы, но останется под контролем специалистов.

ИИ-агенты уже используются в ряде продуктов и сервисов BI.ZONE. Например, в BI.ZONE TDR около 40% подозрений на инциденты уже обрабатываются автоматически. К концу 2026 года этот показатель планируют увеличить до 60% за счёт мультиагентной архитектуры.

Также до конца года пользователям BI.ZONE Threat Intelligence должен стать доступен чат-бот для работы с данными об угрозах. ИИ в платформе будут использовать для обогащения данных и подготовки дополнительного контента на основе открытых и закрытых источников. А в 2027 году BI.ZONE планирует представить AI Pentest — платформу для автоматического анализа защищённости и непрерывного тестирования на проникновение.

Реагирование на инциденты ИБ: что делать, когда всё уже случилось?
Регистрируйтесь!