Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Минцифры анонсировало ужесточение порядка сбора персданных

Ужесточение правил сбора персональных данных должно помочь избежать избыточного накопления информации и, как следствие, снизить риски утечек. Сейчас документ находится на стадии согласования с другими государственными органами.

Как сообщил врио директора департамента обеспечения кибербезопасности Минцифры Евгений Хасин на пресс-конференции «Кибербезопасность: вызовы и шаги по борьбе с угрозами», ведомство подготовило законопроект, цель которого — сократить объёмы персональных данных, собираемых организациями.

«В системах не должно обрабатываться больше персональных данных, чем необходимо для конкретного бизнес-процесса, — отметил Евгений Хасин. — Многие компании стремятся собирать максимум информации для дальнейшего использования, но в законе закреплён принцип минимизации».

Впервые эта задача была обозначена ещё в 2023 году. Тогда директор департамента обеспечения кибербезопасности Минцифры Владимир Бенгин подчёркивал необходимость сокращать объём используемых персональных данных или хотя бы шифровать их идентификаторы. Он называл это «первичной» мерой до внедрения любых других способов защиты.

Директор по развитию центра мониторинга внешних цифровых угроз Solar Aura (ГК «Солар») Александр Вураско обратил внимание на тревожную статистику. За восемь месяцев 2025 года объём утекших данных оказался в четыре раза больше, чем за весь 2024 год, хотя количество самих инцидентов уменьшилось. По его словам, один масштабный случай способен резко изменить картину. Согласно данным за первое полугодие 2025 года, объём утечек был вдвое меньше, чем за аналогичный период годом ранее.

По мнению экспертов эфира AM Live «Защита данных от утечек и несанкционированного доступа», именно компрометация персональных данных вызывает наибольший общественный резонанс и наносит компаниям наиболее серьёзный ущерб.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru