Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

98% безопасников уверены: уровень защищённости их компаний нужно усиливать

«Лаборатория Касперского» провела опрос среди 850 специалистов по кибербезопасности по всему миру — в том числе в России — и выяснила: почти все довольны тем, как сейчас выстроена защита в их компаниях, но считают, что всегда есть, куда расти. 94% респондентов заявили, что в целом довольны уровнем ИБ, но 76% хотят внести небольшие улучшения, а 22% считают, что нужны серьёзные перемены.

Самыми слабыми местами в ИБ-архитектуре участники опроса назвали ручные процессы и «заплаточный» подход к безопасности. 30% тратят слишком много времени на рутину, 29% жалуются, что приходится закрывать уже известные дыры, вместо того чтобы работать на упреждение.

У четверти компаний не хватает специалистов, а 23% сталкиваются с проблемой «зоопарка» защитных решений — много разных инструментов, которыми сложно управлять.

Из-за этого возрастает нагрузка, замедляется реагирование на инциденты и возрастает риск конфигурационных ошибок. Другие слабые места, по мнению опрошенных: потенциальные уязвимости в периметре (22%), сложные ИТ-системы (21%), нехватка актуальной информации о киберугрозах (20%), избыточные уведомления от систем безопасности (18%) и нехватка нужных функций в уже имеющихся решениях (17%).

Все это говорит о потребности в более «умных» и комплексных инструментах защиты. И всё больше компаний понимают: одного антивируса и файрвола давно недостаточно.

Нужен подход, при котором безопасность вшивается в архитектуру изначально — ещё на этапе разработки. Такой подход помогает защитить ключевые активы даже в случае взлома и без гигантских затрат.

Как отмечают в «Лаборатории Касперского», сейчас всё чаще речь идёт не просто о технологиях, а о стратегии. Нужно заранее знать, откуда ждать удар, правильно настраивать процессы, применять лучшие практики и интегрировать решения, которые работают вместе, а не мешают друг другу. Такой подход помогает и защиту усилить, и доверие клиентов сохранить.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru