Семантика и лингвистика в борьбе с утечками данных

Семантика и лингвистика в борьбе с утечками данных

Компания InfoWatch интегрирует в свои решения для защиты данных от утечки технологию «Семантическое зеркало» (версия 1.0). Эта технология лицензирована InfoWatch у компании «Ашманов и Партнеры», технологического лидера разработки движков анализа текстовой информации. Ее дополнительные возможности по контролю за конфиденциальной информацией станут доступны пользователям решений InfoWatch, начиная с сентября.


Технология «Семантическое зеркало» была изначально разработана для оптимизации интернет-поиска, а именно для определения темы любой заданной веб-страницы, что позволяет показывать на этой странице релевантную рекламу или новости на актуальную тему. В решениях InfoWatch данная технология применена для оптимизации лингвистического анализа сетевого трафика с целью выявления и пресечения утечки конфиденциальной информации из компаний.


Лингвистический анализ – это анализ всей информации, содержащейся в почтовой корреспонденции, web-трафике, обращениях к базам данных, а также анализ данных, копируемых на мобильные устройства и отправляемых на печать с рабочих станций. Если в потоке информации обнаружены слова, фразы, части текста, свидетельствующие о конфиденциальности данных, система принимает решение о блокировке отправки данных за пределы компании или уведомлении офицера безопасности об инциденте. В результате внедрения технологии «Семантическое зеркало» в решениях InfoWatch может осуществляться лингвистический анализ текста с учетом словарной морфологии (всех форм слова с различными приставками, суффиксами и окончаниями).


Технология «Семантическое зеркало» привнесла в решения InfoWatch следующие дополнительные возможности:


- Использование элементов нечеткого поиска слов: учитываются некоторые опечатки - например, цифры и латинские буквы, набранные вместо похожих по начертанию русских, и наоборот.


- Возможность обработки многоязыковых текстов, что актуально как для официальных документов (например, мультиязыковых договоров), так и для электронных сообщений.


- Гибкая настройка поиска ключевых слов - например, возможность для некоторого специфического ключевого термина явно указать регистр (только строчными буквами, только прописными, различные комбинации строчных или прописных букв) или «отключить» использование морфологии.


В отличие от решений, основанных на технологиях фингерпринтов (fingerprints), шинглов (shingles), и т.д., технология «Семантического зеркала» позволяет выявить не только ранее созданные конфиденциальные документы, но и вновь создаваемые.
Использование метода лингвистического анализа позволяет обеспечить высокий уровень детектирования критической информации. При этом качественный результат будет получен даже при анализе небольших фрагментов текста, что, например, характерно для неформальной переписки или программ мгновенного общения типа ICQ.


Особое внимание при внедрении технологии «Семантического зеркала» было уделено скорости работы лингвистического движка, так как в случае установки решения «в разрыв» сканирование и фильтрация перехваченных объектов выполняются в режиме реального времени. Использованные алгоритмы позволяют без потери качества фильтрации минимизировать время, затрачиваемое на обработку текста.

ИИ-агенты уже довели до киберинцидентов в 42% компаний

ИИ-агенты постепенно превращаются из модной игрушки для пилотов в полноценную головную боль для ИБ-команд. По данным «Информзащиты», в 2026 году с инцидентами безопасности, связанными с ИИ-агентами, столкнулись уже 42% организаций против 31% годом ранее.

Причина довольно простая: компании перестали держать ИИ-агентов в песочнице и начали массово пускать их в реальные процессы. Теперь такие системы сидят в ИТ, инженерных командах, клиентском сервисе, закупках, безопасности и внутренних операциях. А вместе с этим растёт и количество проблем.

Главная особенность ИИ-агента — это уже не чат-бот, который красиво отвечает на вопросы. Современный агент умеет подключаться к CRM, SIEM, тикетным системам и репозиториям, запускать скрипты, редактировать документы, пересылать данные и дёргать API. И если права настроены криво, агент внезапно начинает делать куда больше, чем планировалось.

По данным исследования, 53% организаций уже сталкивались с ситуациями, когда ИИ-агенты выходили за пределы своих полномочий. Например, лезли в чужие хранилища или обращались к учётным записям, которые вообще не относились к исходной задаче.

Отдельный весельчак — децентрализация внедрения. Только 5% компаний используют единую платформу для ИИ-агентов. Остальные плодят их пачками: low-code, no-code, SaaS, личные токены, групповые доступы и всё это без нормального контроля со стороны ИБ. В итоге в крупных организациях доля неучтённых ИИ-агентов уже доходит до 27%, а там, где любят low-code — до 39%.

Именно такие «теневые» агенты часто становятся источником утечек и странных действий. Потому что классические IAM-системы вообще не проектировались под автономные нечеловеческие сущности, которые сами принимают решения и бегают по инфраструктуре.

Самые популярные проблемы — злоупотребление правами и выход за рамки разрешённых сценариев. На них приходится 31% инцидентов. Далее идут prompt injection и подмена инструкций — 24%, утечки через коннекторы и хранилища — 18%, shadow AI — 14%, компрометация токенов и API-ключей — 9%.

Особенно неприятно выглядит то, что расследование таких историй часто превращается в квест. Более половины компаний признались, что обнаружение и реагирование занимают больше пяти часов. Причина банальна: команда видит итоговое действие агента, но не понимает, какой промпт, какой инструмент и какие данные к этому привели.

Самыми проблемными отраслями оказались финансы, ИТ и телеком. Финансовый сектор лидирует из-за плотной интеграции автоматизации и огромного числа чувствительных данных. В ИТ всё осложняется тем, что агенты получают доступ к репозиториям, CI/CD и инфраструктуре.

Параллельно рынок получил новые риски из-за протоколов MCP и A2A, которые позволяют агентам взаимодействовать с инструментами и друг с другом. Интеграция становится быстрее, но появляется ещё один слой доверия, который толком не контролируют классические системы защиты.

На фоне всего этого уже начали всплывать реальные инциденты. В исследовании вспоминают историю с Vercel и сторонним ИИ-инструментом Context.ai, уязвимость EchoLeak в Microsoft 365 Copilot и случаи, когда автономные кодинговые агенты за секунды удаляли рабочие базы данных и резервные копии, пытаясь исправить проблему.

RSS: Новости на портале Anti-Malware.ru