Семантика и лингвистика в борьбе с утечками данных

Семантика и лингвистика в борьбе с утечками данных

Компания InfoWatch интегрирует в свои решения для защиты данных от утечки технологию «Семантическое зеркало» (версия 1.0). Эта технология лицензирована InfoWatch у компании «Ашманов и Партнеры», технологического лидера разработки движков анализа текстовой информации. Ее дополнительные возможности по контролю за конфиденциальной информацией станут доступны пользователям решений InfoWatch, начиная с сентября.


Технология «Семантическое зеркало» была изначально разработана для оптимизации интернет-поиска, а именно для определения темы любой заданной веб-страницы, что позволяет показывать на этой странице релевантную рекламу или новости на актуальную тему. В решениях InfoWatch данная технология применена для оптимизации лингвистического анализа сетевого трафика с целью выявления и пресечения утечки конфиденциальной информации из компаний.


Лингвистический анализ – это анализ всей информации, содержащейся в почтовой корреспонденции, web-трафике, обращениях к базам данных, а также анализ данных, копируемых на мобильные устройства и отправляемых на печать с рабочих станций. Если в потоке информации обнаружены слова, фразы, части текста, свидетельствующие о конфиденциальности данных, система принимает решение о блокировке отправки данных за пределы компании или уведомлении офицера безопасности об инциденте. В результате внедрения технологии «Семантическое зеркало» в решениях InfoWatch может осуществляться лингвистический анализ текста с учетом словарной морфологии (всех форм слова с различными приставками, суффиксами и окончаниями).


Технология «Семантическое зеркало» привнесла в решения InfoWatch следующие дополнительные возможности:


- Использование элементов нечеткого поиска слов: учитываются некоторые опечатки - например, цифры и латинские буквы, набранные вместо похожих по начертанию русских, и наоборот.


- Возможность обработки многоязыковых текстов, что актуально как для официальных документов (например, мультиязыковых договоров), так и для электронных сообщений.


- Гибкая настройка поиска ключевых слов - например, возможность для некоторого специфического ключевого термина явно указать регистр (только строчными буквами, только прописными, различные комбинации строчных или прописных букв) или «отключить» использование морфологии.


В отличие от решений, основанных на технологиях фингерпринтов (fingerprints), шинглов (shingles), и т.д., технология «Семантического зеркала» позволяет выявить не только ранее созданные конфиденциальные документы, но и вновь создаваемые.
Использование метода лингвистического анализа позволяет обеспечить высокий уровень детектирования критической информации. При этом качественный результат будет получен даже при анализе небольших фрагментов текста, что, например, характерно для неформальной переписки или программ мгновенного общения типа ICQ.


Особое внимание при внедрении технологии «Семантического зеркала» было уделено скорости работы лингвистического движка, так как в случае установки решения «в разрыв» сканирование и фильтрация перехваченных объектов выполняются в режиме реального времени. Использованные алгоритмы позволяют без потери качества фильтрации минимизировать время, затрачиваемое на обработку текста.

ГК Солар запатентовала технологию выявления ботов на уровне HTTPS

ГК «Солар» получила патент на технологию, которая помогает автоматически отличать опасные бот-запросы от действий реальных пользователей ещё на этапе подключения к веб-серверу. Патент был выдан Роспатентом 27 ноября 2025 года. Речь идёт о механизме анализа HTTPS-соединений, который оценивает вероятность того, что запрос был отправлен ботом.

В основе разработки — математическая модель, обученная на статистике поведения легитимных пользователей и автоматических скриптов. Если система считает запрос подозрительным, пользователю предлагается пройти дополнительную проверку. Если нет — соединение устанавливается без задержек.

Подход позволяет отсеивать нежелательную активность до загрузки страницы, не перегружая сайт и не мешая реальным посетителям. Это особенно актуально для интернет-магазинов и других онлайн-ресурсов малого и среднего бизнеса, где даже кратковременные сбои могут напрямую отражаться на выручке.

По оценке разработчиков, технология помогает бороться сразу с несколькими распространёнными проблемами. Среди них — автоматизированный сбор данных, когда боты массово выгружают информацию о товарах и ценах, искажают аналитику и создают почву для мошенничества. Также система позволяет выявлять накрутку кликов и просмотров, автоматические переборы логинов и паролей, разведку перед атаками и попытки перегрузить сайт бот-DDoS-трафиком.

Как поясняют в «Соларе», ключевая идея заключалась в том, чтобы анализировать не содержимое запроса, а его технические параметры, характерные именно для автоматических инструментов. Такой подход остаётся эффективным даже в условиях, когда боты всё лучше маскируются под поведение обычных пользователей.

По словам директора продукта Solar Space Артёма Избаенкова, сегодня на ботов приходится уже более половины мирового интернет-трафика, и значительная часть этой активности связана с вредоносными сценариями. Использование нейросетевой модели позволяет снизить влияние человеческого фактора и повысить точность фильтрации.

Руководитель направления развития облачных технологий ГК «Солар» Дмитрий Лукин отмечает, что разработка выросла из практических задач защиты заказчиков. Основной целью было научиться отсеивать замаскированных ботов на самом раннем этапе, ещё до обработки запроса веб-приложением. После тестирования и доработки модель легла в основу патентованного решения.

В компании добавляют, что технология уже применяется в линейке решений Solar Space — как в облачном формате, так и в развёртываниях on-premise.

RSS: Новости на портале Anti-Malware.ru