Екатерина Пшехотская: Будущее DLP за технологиями Big Data, семантическими полями и искусственным интеллектом

Екатерина Пшехотская

В 2008 году с отличием окончила филологический факультет Московского Государственного Университета имени М. В. Ломоносова по специальности теоретической и прикладной лингвистики. В 2012 году защитила кандидатскую диссертацию по филологии.

В 2008 году Екатерина Пшехотская начала работать в компании InfoWatch в качестве лингвиста и за 7 лет прошла карьерный путь до должности директора по развитию технологий.

Екатерина Пшехотская – обладатель ряда патентов по автоматической обработке естественного языка и автор многочисленных публикаций по теме искусственного интеллекта, лингвистики, DLP. Она регулярно выступает в качестве ключевого докладчика и председателя секций на международных научных конференциях. Екатерина Пшехотская состоит в различных научных сообществах и ассоциациях, таких как The Association for Computational Linguistics, Slavic Linguistics Society, National Corpus of Russian Language и многих других, входит в консультационный совет The Society of Digital Information and Wireless Communications.

 

...

На вопросы Anti-Malware.ru любезно согласилась ответить Екатерина Пшехотская, обладатель ряда патентов по автоматической обработке естественного языка и автор многочисленных публикаций по теме искусственного интеллекта, лингвистики, DLP. Это интервью продолжает цикл публикаций "Индустрия в лицах". 

 

Гибридный анализ стал очень модным термином на рынке. Вы также часто упоминаете гибридный анализ в качестве одного из преимуществ вашего решения. Что под этим термином понимает компания InfoWatch?

Мы рассматриваем гибридный анализ как синергию всех используемых технологий. Поскольку каждая технология нацелена на решение какой-то определенной и порой очень узкой задачи, использование комплекса технологий — это наиболее верный подход к задаче по предотвращению утечек.

Какие технологии обязательно должны быть в арсенале современной DLP-системы?

Здесь, конечно, надо упомянуть так называемые классические DLP-технологии: цифровые отпечатки, регулярные выражения и поиск по ключевым словам. Данные технологии охватывают около 70-80% всех инцидентов. Но, тем не менее, это только самые базовые вещи, которые уже достаточно давно используются в DLP-системах. Конечно, в арсенале современной DLP-системы должны использоваться технологии, которые защищают прежде всего персональные данные. В подавляющем большинстве случаев персональные данные клиентов «выносятся» из компании злонамеренно ее же сотрудниками. Эту проблему позволяют решить разработанные InfoWatch технологии, в том числе технология детектирования выгрузок баз данных. Она осуществляет «умную защиту» клиентских баз, присваивая статус конфиденциальности не всей базе целиком, а взаимосвязи определенных столбцов, информация в которых в совокупности является конфиденциальной. При попытке сотрудника переслать куда-либо эту информацию система зафиксирует нарушение политики безопасности и уведомит офицера безопасности об инциденте.

Также все больше пользователей отмечают необходимость детектирования изображений, таких как отсканированные кредитные карты, паспорт РФ и многие другие.

Как технологии контентного анализа в настоящее время могут работать «из коробки»?

Если говорить о технологиях, которые не нуждаются в особой настройке под заказчика, то это в первую очередь технология цифровых отпечатков и набор регулярных выражений, которые можно использовать «из коробки».

Также у нас есть набор отраслей, проработанных в плане классификации данных. Это финансовая, нефтегазовая, энергетическая и многие другие тематики. Такие отраслевые классификаторы или Базы контентной фильтрации (БКФ) покрывают около 80% всех возможных инцидентов, а остальные 20% уже нужно дорабатывать на конкретном материале заказчика. Поскольку именно эти 20% составляют специфику, характерную для конкретной компании. Например, это могут быть названия закрытых тендеров определенной компании или специфические названия проектов и пр. Поэтому такую специфическую терминологию, если мы говорим о БКФ, нельзя закрыть стандартными отраслевыми решениями, то же самое касается и других технологий анализа, например детектирования печатей компании. Приведу такой случай: заказчику необходимо было детектировать только те договоры, которые были заверены печатью генерального директора, пересылка остальных договоров инцидентом не считалась. В этом случае настройка БКФ не дала бы необходимого результата, поскольку два договора, с печатью и без, абсолютно идентичны по набору терминов. А вот использование детектора печатей как раз решило эту задачу. Заказчик добавил печать генерального директора как эталон в систему, и она стала детектировать только документы с данной печатью.

Несколько лет назад с подачи некоторых западных вендоров считалось, что цифровые отпечатки не требуют длительной настройки и все функционирует буквально сразу же после установки продукта. Почему это не работает на практике?

Изначально цифровые отпечатки действительно разрабатывались именно как технология, не требующая дополнительной настройки. Они хорошо подходят для статической защиты, то есть редко изменяемой информации, такой как регламенты, уставы компании и пр. Но очевидно, что контроль такой информации — это только самая элементарная база. Она нужна, но ограничиваться лишь ей невозможно: злоумышленники редко просто пересылают конфиденциальный документ без каких либо изменений, обычно они действуют хитрее.

Как я уже говорила, в каждом конкретном случае нужен индивидуальный подход, и для качественной DLP-системы требуются различные данные на входе. Вот пример того, как компания InfoWatch доработала эту технологию исходя из реалий заказчика: в InfoWatch Traffic Monitor технология цифровых отпечатков может не только детектировать статические данные, но и функционировать как детектор выгрузок из баз данных и детектор заполненных форм, выявляющий передачу именно заполненных анкет или бланков. Это помогает не только защитить персональные данные, но и избавиться от ложноположительных срабатываний. Например, пересылаемая пустая анкета не является инцидентом, а вот утечка форм с заполненными полями с ФИО, телефоном, адресом и пр. уже подпадает под ФЗ 152.

Или, например, детектор выгрузок из баз данных: не вся информация, записанная в БД, является конфиденциальной. Например, только ФИО не является персональными данными, а вот ФИО, паспорт и номер телефона — уже да. Поэтому нужно выяснить, какая именно информация для заказчика критична, и настроить систему соответствующим образом.

Как вы видите услуги Pre-DLP, которые оказываются клиенту еще до этапа внедрения?

Для начала немного расскажу о том, что мы называем услугами Pre-DLP. В первую очередь, это определение того, какую информацию необходимо и целесообразно защищать, каков ее жизненный цикл и кто должен иметь к ней доступ. На данном этапе вендор совместно с заказчиком разбираются с объектами защиты, выясняют, какую именно конфиденциальную информацию нужно отслеживать в компании. Это отчасти консалтинговая деятельность, которая связана и с категоризацией информационных ресурсов, и с аудитом ИБ, введением режима коммерческой тайны, и с созданием пакета локальных нормативных актов, а также с разработкой методики классификации данных.

На мой взгляд, услуги Pre-DLP сильно облегчают дальнейшую работу как вендору, так и самому заказчику. Во-первых, появляется четкая картина того, что именно нужно защищать помимо, скажем, персональных данных, какой тип информации является конфиденциальным именно у этого заказчика. После грамотно проведенного Pre-DLP последующая настройка системы проходит быстрее и эффективнее. Поэтому в InfoWatch есть большая команда лингвистов и инженеров внедрения (более 60 высококвалифицированных специалистов), которые делают этап Pre-DLP максимально быстрым и комфортным для заказчика.

InfoWatch за последние несколько лет сделала много отраслевых решений. В чем они заключаются?

Да, такие решения есть, отчасти я уже упомянула их ранее. При их создании мы, прежде всего, тщательно проработали отраслевые тематики и виды потенциальных инцидентов. Для каждой отрасли, будь то финансы, телеком или что-то еще, создана структура классификатора или БКФ, добавлены только необходимые для отрасли шаблоны и настройки политик. В результате компании получают решение, на настройку которого потребуется гораздо меньше времени и усилий, чем в случае с продуктом, не учитывающим отраслевую специфику. Поскольку наши отраслевые решения основаны на серьезном опыте взаимодействия с различными отраслями, мы собрали репрезентативную терминологическую базу, а также саму структуру категорий. Вполне естественно, что с такой структурой заказчику начать работать гораздо проще, чем составлять свою. Так что, можно сказать, мы просто избавляем заказчиков от необходимости изобретать велосипед. Тем более, если переводить это во временной эквивалент, заказчику может потребоваться достаточно много ресурсов (как временных, так и человеческих) для структуризации такого типа информации.

Что дает использование таких отраслевых решений, в частности отраслевых БКФ?

Подобные отраслевые решения, как я уже указала ранее, сразу отсекают около 80% ложных срабатываний, т. е. заказчик уже может работать с системой, параллельно осуществляя более тонкую настройку под свои производственные нужды.

Как создается БКФ на заказ, насколько это сложный и длительный процесс?

Все зависит от нескольких факторов. Во-первых, это готовность заказчика, т. е. наличие репрезентативного набора документов для последующего анализа или, по крайней мере, понимание того, какая информация в компании является критичной. Во-вторых, это само качество подготовленных документов. Здесь учитывается как их разноплановость, так и общее количество. Ну и, в-третьих, это наличие уже накопленного в системе трафика. У нас есть уже отработанные и проверенные методики создания и последующей настройки БКФ на заказ, поэтому процесс стал прозрачным как для заказчика, так и для специалистов.

В какой мере решает проблему так называемый «Автолингвист»?

Наш «Автолингвист», конечно, отчасти ускоряет процесс анализа документов. Но поскольку эта программа основана на статистическом методе, на вход необходимо подать достаточно большое количество документов, а такая возможность у заказчика есть не всегда. Кроме того, после подготовки «Автолингвистом» БКФ нужна ручная доработка, поскольку это машинное обучение. Поэтому данный продукт, естественно, в какой-то мере облегчает задачу, но, как и почти любой автоматический подход, не снимает полностью необходимость ручной «доводки».

Насколько важен на практике контекстный анализ и насколько трудно настроить связанные с ним политики?

Безусловно, контекстный анализ важен, как отмечают сами заказчики. Но здесь стоит упомянуть еще и контентный анализ. Как раз синергия контентного и контекстного анализов дает наиболее качественный результат. Приведу такой пример: если сотрудники бухгалтерии пересылают в рамках своего отдела зарплатные выгрузки, то это легитимный случай и система не должна на это срабатывать, но если такой документ пересылается в другие отделы, не имеющие профессионального отношения к финансам, это уже тревожный знак, и система немедленно просигнализирует об этом.

Также отмечу, что при правильном подходе, который я описала выше, политики настраиваются быстро. Здесь важно общее понимание того, что именно необходимо защитить от утечки.

Что на практике дают специальные технологии анализа (обнаружение печатей, детектор паспортов, анализ шаблонов и т. д.)? Почему нельзя обойтись стандартными методами анализа?

Использование «классических» технологий покрывает только около 80% всех потенциальных инцидентов. Специальные, или дополнительные технологии призваны защитить те самые важные 20% данных заказчика, которые остаются за кадром со стандартным набором DLP-методов. Ведь часто в эти 20% как раз попадает наиболее актуальная конфиденциальная информация. Например, в компании было подписано важное соглашение, и договор еще не успели занести в базу цифровых отпечатков, и соответствующей лексики нет в БКФ. В этом случае, вероятнее всего, стандартные методы DLP не помогут выявить утечку. А вот наша технология детектирования печатей — сможет.

Рассматриваете ли вы применение в будущем технологий искусственного интеллекта? Если да, то каким образом?

Смотря что понимать под термином «искусственный интеллект». В какой-то мере технологии, основанные на статистическом методе, тоже в той или иной степени относятся к искусственному интеллекту. Ведь искусственный интеллект подразумевает самообучение, а все технологии самообучения, которые работают без помощи человека, как раз основаны на статистике. Поэтому какие-то алгоритмы искусственного интеллекта мы уже используем и развиваем. Например, это метод опорных векторов, который используется в нашей системе автоматического самообучения изображений. Система работает следующим образом: на вход подается коллекция изображений определенного типа, система соответственно обучается, и в дальнейшем каждый перехваченный объект классифицируется на основе собранной коллекции изображений.

В чем заключается услуга Post-DLP?

Под Post-DLP понимается инструмент для расследования инцидентов безопасности и сбора юридически значимой доказательной базы, с помощью которой компания сможет доказать вину нарушителя в суде. Надо отметить, что все это возможно только при правильно проведенном этапе Pre-DLP. Внедрение технического средства для защиты от внутренних угроз, в том числе утечек, должно сопровождаться комплексом организационных мер, таких как, например, создание выверенных юридически грамотных регламентов в компании.

Какие тенденции вы видите в использовании DLP-систем на практике с точки зрения технологий?

На мой взгляд, использование технологий полностью отражает ситуацию с информационным полем. Сейчас мы видим тенденцию к увеличению всеобщего потока информации как на глобальном уровне, так и на уровне документооборота компании. Поэтому, я думаю, в ближайшее время будут особо развиваться такие направления, как big data, семантические поля и упомянутый ранее искусственный интеллект.

Какой вы видите идеальную технологичную DLP-систему в ближайшие пять лет?

Интересный вопрос. Поскольку идеальная система недостижима по определению, позволю себе немного пофантазировать. Я думаю, это должна быть предугадывающая система, которая будет накапливать предыдущий опыт и постоянно самообучаться в автоматическом режиме. И уже сейчас понятно, что решения данного класса развиваются в сторону комплексной защиты от всего спектра внутренних угроз, который включает и мошенничество сотрудников, и сговоры, и многое другое.

Спасибо за интервью и творческих успехов!