Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Исследователи показали, как управлять «мыслями» ИИ на лету

Команда из T-Bank AI Research предложила новый подход к интерпретации и управлению большими языковыми моделями — вроде тех, что лежат в основе современных чат-ботов. Разработку представили на международной конференции ICML в Ванкувере, одном из крупнейших событий в области машинного обучения.

Речь идёт о модифицированном методе SAE Match, который позволяет не просто наблюдать за тем, как модель обрабатывает информацию, но и влиять на это поведение без переобучения или вмешательства в архитектуру.

Что нового?

Вместо того чтобы просто смотреть, какие признаки активируются в слоях модели, исследователи научились строить граф потока признаков. Он показывает, как определённые смысловые элементы (например, тема или стиль ответа) зарождаются и проходят через внутренние механизмы модели — от attention до feedforward.

Самое интересное — теперь можно точечно усиливать или подавлять эти элементы. Например, изменить тональность текста или убрать нежелательную тему. Причём это делается не путём настройки модели заново, а с помощью управления внутренними активностями на нужных этапах.

Почему это важно?

  • Можно контролировать поведение модели более точно, если воздействовать сразу на несколько уровней обработки.
  • Не нужны дополнительные данные или переобучение, метод работает с уже обученными моделями.
  • Прозрачность — можно проследить, откуда берётся тот или иной фрагмент текста: из контекста или из внутренних «знаний» модели.
  • Безопасность — если модель сгенерировала что-то нежелательное, теперь можно понять, почему так вышло, и в будущем избежать повторения.

В чём уникальность?

Раньше интерпретация ИИ сводилась к тому, чтобы просто наблюдать, как он работает. Теперь же появляется возможность вмешиваться в процесс генерации — причём быстро и точечно. Это может быть полезно не только в научных задачах, но и в реальных продуктах, где важно избегать неожиданных или опасных ответов от ИИ.

Так что теперь исследователи могут не просто догадываться, что происходит внутри модели, а действительно видеть и управлять этими процессами. И это, по сути, шаг к более контролируемому и предсказуемому искусственному интеллекту.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Разработчик фишинг-наборов получил 7 лет за ущерб в $134 млн

Британский суд приговорил 21-летнего студента Олли Холмана к семи годам лишения свободы за создание и распространение инструментов для фишинга, которые использовались киберпреступниками по всему миру. По данным следствия, эти программы нанесли ущерб на сумму более 134 млн долларов.

Холман целенаправленно разрабатывал вредоносные наборы, позволявшие похищать конфиденциальные данные тысяч людей в разных странах.

Как сообщила газета The Guardian, созданные Холманом наборы для фишинга имитировали интерфейсы государственных служб, финансовых организаций и благотворительных фондов. С их помощью злоумышленники получали доступ к личным данным и платёжным реквизитам пользователей из 24 стран.

Всего за период с 2021 по 2023 год Холман разработал 1052 таких набора, копировавших сайты и сервисы 69 различных организаций.

Он продавал их через закрытый канал в Telegram и заработал на этом около 300 тысяч фунтов стерлингов (более 430 тысяч долларов), которые впоследствии отмывал через криптовалютные кошельки.

О Холмане полиции сообщила компания WMC Global, занимающаяся мониторингом угроз в интернете. В октябре 2023 года его задержали в общежитии Университета Кента, где он обучался. Несмотря на арест и прекращение распространения своих фишинговых инструментов, Холман продолжал оказывать техническую поддержку их пользователям. Это стало основанием для повторного задержания в мае 2024 года.

Холман признал вину по семи пунктам обвинения, включая изготовление и продажу средств, предназначенных для совершения мошенничества, содействие преступлениям, а также отмывание доходов, полученных преступным путём.

«Потери от мошенничества, связанные с действиями Холмана, исчисляются миллионами. Более того, сам Холман получил огромную прибыль от продажи этого программного обеспечения, не задумываясь о том, как оно может причинить вред жертвам», — отметил следователь Бен Херли.

Прокурор Королевской прокуратуры Сара Дженнингс выразила надежду, что вынесенный приговор станет предостережением для других авторов вредоносного кода. По её словам, анонимность и защита даркнет-платформ не спасут киберпреступников от ответственности.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru