Red Teaming в применении к ИИ требует переосмысления

Red Teaming в применении к ИИ требует переосмысления

Red Teaming в применении к ИИ требует переосмысления

Учения Generative Red Team, проведенные в рамках DEF CON 32, показали, что подобный способ оценки защищенности ИИ не дает адекватной картины. Эксперты предлагают создать систему, подобную CVE и учитывающую целевое назначение объектов анализа.

В мероприятии приняли участие (PDF) около 500 добровольцев с разным опытом аудита больших языковых моделей (БЯМ, LLM). В 48 случаях за выявленные недочеты были выплачены премии — суммарно $7850.

Тем не менее организаторы пришли к выводу, что метод Red Teaming в применении к ИИ необходимо усовершенствовать. Большой проблемой оказалось фрагментарность документации по LLM, которые к тому же разнятся по предусмотренному применению.

Без учета назначения ИИ-модели и сообразных встроенных ограничений результаты таких проверок на прочность могут ввести в заблуждение. Более того, отсутствие единых критериев оценки может привести к противоречивым заключениям.

Бурный рост и развитие ИИ-технологий создали новые риски, однако ни у кого пока нет четкого представления о том, как тестировать такие продукты и выстраивать их защиту.

Обеспечение безопасности LLM, по словам экспертов, — нескончаемый процесс. Умные помощники могут ошибаться, им свойственны галлюцинации, предвзятость (из-за неправильного обучения), уязвимость к инъекции стимула. Подобные системы бесперспективно защищать от взлома, однако его можно сделать более затратным, а последствия — краткосрочными.

Организаторы Generative Red Team призывают ИИ- и ИБ-сообщества совместными усилиями решить настоятельные проблемы. В противном случае техническая революция приведет к появлению ИИ-инструментов, на которые невозможно положиться; живой пример тому — скороспелка DeepSeek.

BI.ZONE Mail Security получила ИИ для анализа эмоций в письмах

В BI.ZONE Mail Security появилась новая ИИ-функциональность: система научилась анализировать эмоциональную окраску писем и использовать это для выявления атак. Обновление вошло в версию 2.11 и нацелено прежде всего на борьбу с фишингом и BEC-сценариями, замаскированными под обычную деловую переписку.

Новый ИИ-модуль оценивает тональность писем — позитивную, негативную или нейтральную — и параллельно ищет признаки манипулятивного воздействия.

Речь идёт о характерных приёмах социальной инженерии: давлении, апелляции к срочности, тревожной или ультимативной подаче. За счёт этого система может точнее понимать намерения отправителя и быстрее реагировать на письма, которые внешне выглядят легитимно, но на самом деле подталкивают получателя к рискованным действиям.

Как отмечают в BI.ZONE, злоумышленники всё чаще выдают себя за бухгалтерию, руководителей или подрядчиков и делают ставку не на вредоносные вложения, а на психологию. Поэтому задача защиты почты сегодня — не просто проверить ссылки и домены, а распознать контекст и скрытые попытки давления. Анализ эмоциональных и поведенческих паттернов позволяет лучше отделять реальные рабочие письма от фишинга и атак класса BEC.

Помимо ИИ-анализа, в версии 2.11 доработали и сопутствующую функциональность. Появилась автоматическая синхронизация списка разрешённых получателей с Active Directory, что упрощает администрирование и снижает риск ошибок в настройках. Для защиты учётных записей добавили двухфакторную аутентификацию по TOTP и механизм принудительной смены паролей по истечении срока их действия.

Обновили и сценарии реагирования на подозрительные письма. Теперь можно включать предупреждения для сообщений от внешних отправителей и добавлять кнопку жалобы прямо в тело письма. Если на сообщение пожаловался один сотрудник, система повышает риск-рейтинг отправителя и блокирует его письма только для этого пользователя.

При массовых жалобах блокировка применяется уже на уровне всей организации. При этом учитываются и обратные ситуации: если письма разрешают или массово помечают отправителя как доверенного, риск-рейтинг автоматически снижается — индивидуально или глобально.

В новой версии также усилили фильтрацию поддельных писем: улучшили проверку DMARC для защиты от подмены доменов. Для onprem-установок упростили обновление — теперь перейти на актуальную версию можно напрямую через инсталлятор. Журнал сообщений стал более подробным: в нём отображается рейтинг письма на каждом этапе проверки и детальная информация по SMTP-анализу. Кроме того, администраторам дали возможность вручную обучать модель категоризации писем через веб-интерфейс.

В итоге BI.ZONE Mail Security 2.11 делает акцент не столько на «громкие» вредоносные письма, сколько на тихие, психологически выверенные атаки — именно те, которые сегодня всё чаще проходят под видом обычной корпоративной переписки.

RSS: Новости на портале Anti-Malware.ru