Современные технологии обнаружения утечек

Современные технологии обнаружения утечек

Эффективность работы любой DLP-системы зависит в первую очередь от качества выявления конфиденциальной информации в общем потоке данных. Для этого сегодня используется ряд различных технологий, каждая из которых имеет свои достоинства и недостатки. В данной статье приводится анализ каждой из применяемых в DLP-решениях технологий, а также области их применения.

 

 

1. Введение

2. Морфологический анализ

3. Синтаксический анализ

4. Шаблоны

5. Цифровые отпечатки

6. Цифровые метки

7. Инструменты противодействия обходу защиты

8. Выводы

9. Комментарии производителей DLP-решений

 

Введение

Ни для кого не секрет, что самым надежный способ избежать утечки данных – полностью перекрыть все возможные каналы связи. Однако, в современных условиях, это просто-напросто нереально. Сегодня многие компании не могут отказаться от съемных накопителей, которые достаточно активно используются в бизнес-процессах. А об отказе от использования Интернета и принтеров даже  говорить не приходится!

Поскольку полностью запретить использование потенциально опасных каналов не представляется возможным, возникает задача их контроля. Суть этой задачи заключается в мониторинге всей передаваемой информации, выявлении среди нее конфиденциальной и выполнение тех или иных операций, заданных политиками безопасности. Понятно, что основной, самой важной задачей является анализ данных. Именно от его качества зависит эффективность работы всей DLP-системы.

Задачу анализа потока данных с целью выявления конфиденциальных можно смело назвать нетривиальной. Слишком уж много передается разнообразной информации. В следствие этого поиск нужной оказывается серьезно осложнен множеством требующих учета факторов. Поэтому, на сегодняшний день разработано несколько технологий для детектирования попыток передачи конфиденциальных данных. Каждая из них отличается от других своим принципом работы. 

Условно все способы обнаружения утечек можно разделить на две группы. К первой относятся те технологии, которые основаны на анализе непосредственно самих текстов передаваемых сообщений или документов (морфологический и статистический анализы, шаблоны). По аналогии с антивирусной защитой их можно назвать проактивными. Вторую группу составляют рекативные способы (цифровые отпечатки и метки). Они определяют утечки по свойствам документов или наличию в них специальных меток.

Каждый способ обнаружения утечек обладает своими преимуществами и недостатками, и использование данных технологий является взаимодополняющим. А поэтому мы подробно разберем их и выясним, в каких ситуациях используется та или иная технология.

 

Морфологический анализ

Морфологический анализ является одним из самых распространенных контентных способов обнаружения утечек конфиденциальной информации. Суть этого метода заключается в поиске в передаваемом тексте определенных слов и/или словосочетаний. И, хотя это звучит очень просто, на самом деле он относится к числу самых сложных в реализации методов. Дело в том, что строгий поиск только указанных выражений, сам по себе, бесполезен, необходимо морфологический поиск, в котором учитываются все возможные формы заданных слов.

Главным преимуществом рассматриваемого метода является его универсальность. С одной стороны, морфологический анализ может использоваться для контроля любых каналов связи, начиная с файлов, копируемых на съемные накопители, и заканчивая сообщениями в ICQ, Skype, социальных сетях и пр. А с другой – с его помощью могут исследоваться любые тексты и искаться любая информация. При этом конфиденциальные документы не нуждаются в какой-либо предварительной обработке. А защита начинает действовать сразу после включения правил обработки и распространяется на все заданные каналы связи.

Основным недостатком морфологического анализа является относительно низкая эффективность определения конфиденциальной информации. Причем зависит она как от используемых в системе защиты алгоритмов, так и от качества семантического ядра, применяющегося для описания защищаемых данных. Также немалое значение имеют и сами анализируемые тексты. Именно поэтому заранее предсказать степень эффективности обнаружения в передаваемого трафике конфиденциальных данных достаточно сложно. Увеличить ее можно точным подбором семантического ядра. Также при использовании морфологического анализа нужно учитывать риск ложного срабатывания системы защиты на вполне безобидные тексты. Его степень также зависит от семантического ядра и исследуемого трафика.

Однако, несмотря на достаточно серьезные недостатки, морфологический анализ, на сегодняшний день, является единственно возможным методом обнаружения произвольной информации в любых текстах. Морфологические алгоритмы постоянно совершенствуются, что,  повышает его точность.

Говоря о морфологическом анализе, следует упомянуть о словарях, которые позволяют увеличить эффективность морфологического анализа, а также упрощают работу с ним. Они представляют собой списки слов на одну тематику, которые могут использоваться для обнаружения конфиденциальной информации. Словари значительно упрощают настройку морфологического анализа. Их использование позволяет при необходимости внесения корректировок в параметры защиты не редактировать вручную все правила, а только изменить состав нужного списка. При этом изменится работа всех правил, в которых используется данный словарь.

Кроме того, в некоторых DLP-решениях существует функция генерации семантического ядра. Она также основана на использовании словарей. Суть данной функции сводится к сканированию указанного набора документов (например, папки с договорами), в ходе которого по специальному алгоритму выбираются слова и выражения, могущие использоваться для описания текстов этого типа. Из них автоматически формируется словарь, который остается только вставить в правила морфологического анализа.

 

Статистический анализ

Данный метод еще относительно мало распространен в DLP-системах. На данный момент он присутствует в решениях буквально нескольких разработчиков. Тем не менее, не признать перспективность его применения нельзя. Сами разработчики, рекламируя данную технологию, используют термин "искусственный интеллект". Не будем спорить о том, оправдано это или нет. Отметим только, что в его основе лежит именно статистический анализ. Простейшим примером такой технологии является байесовский алгоритм, который используется практически во всех антиспам-фильтрах. Естественно, в DLP-решениях статистический анализ получил дальнейшее развитие и ориентирован именно на поиск информации конфиденциального характера.

Принцип работы статистических методов заключается в вероятностном анализе текста, который позволяет предположить его конфиденциальность или открытость. Для их работы обычно требуется предварительное обучение алгоритма. В ходе него вычисляется вероятность нахождения тех или иных слов, а также словосочетаний в конфиденциальных документах.

Преимуществом статистического анализа является его универсальность. При этом стоит оговориться, что данная технология работает в штатном режиме только в рамках поддержания постоянного обучения алгоритма. Так, например, если в процессе обучения системе было предложено недостаточное количество договоров, то она не сможет определять факт их передачи. То есть качество работы статистического анализа зависит от корректности его настройки (обучения). При этом необходимо учитывать вероятностный характер данной технологии . Она только делает предположение (в процентах) того, что анализируемый текст относится к разряду конфиденциальных.

 

Шаблоны

Во многих случаях конфиденциальная информация представляет собой некоторые стандартизованные данные, например, адреса, телефоны, серии и номера паспортов или каких-либо иных документов, банковские реквизиты, ИНН и пр. Особенно часто это встречается в персональных данных сотрудников или клиентов компании. Для обнаружения попыток передачи такой информации существует специальный весьма эффективный метод – шаблоны.

Суть метода  проста. Администратор безопасности определяет строковый шаблон конфиденциальных данных: количество символов и их тип (буква или цифра). После этого система начинает искать в анализируемых текстах сочетания, удовлетворяющие ему, и применять к найденным файлам или сообщениям указанные в правилах действия.

Главным преимуществом шаблонов является высокая эффективность обнаружения передачи конфиденциальной информации. Применительно к инцидентам случайных утечек она стремится к ста процентам. Случаи с преднамеренными пересылками сложнее. Зная о возможностях используемой DLP-системы, злоумышленник может противодействовать ей, в частности, разделяя символы различными символами. Поэтому используемые методы защиты конфиденциальной информации должны держаться в секрете.

К недостаткам шаблонов относится, в первую очередь, ограниченная сфера их применения. Они могут использоваться только для стандартизованной информации, например, для защиты персональных данных. Ещё одним минусом рассматриваемого метода является относительно высокая частота ложных срабатываний. Например, номер паспорта состоит из шести цифр. Но, если задать такой шаблон, то он будет срабатывать каждый раз, когда встретится 6 цифр подряд. А это может быть номер договора, отсылаемый клиенту, сумма и т.п.

В некоторых DLP-решениях технология шаблонов получила развитие, позволяющее нивелировать описанный выше недостаток. Достигается это за счет ее расширения дополнительными условиями: ключевыми суммами, диапазонами значений, словами, которые находятся неподалеку до или после найденной подстроки. При этом разработчики сами комплектуют поставку уже готовыми шаблонами со всеми необходимыми условиями, так что администратору безопасности остается при создании правила только выбрать нужные значения.

 

Цифровые отпечатки

Еще одной технологией обнаружения утечек конфиденциальной информации является так называемых цифровых отпечатков. С ее помощью можно с  высокой степенью эффективности контролировать попыток передачи строго определенных документов или их фрагментов. Суть метода заключается в следующем. Сначала создается специальная база "электронных слепков" с указанных администратором безопасности файлов. После этого все отправляемые документы будут проверяться на соответствие этим отпечаткам.

Эту технологию не следует путать  цифровой подписью документов. Цифровая подпись основана на использовании хешировании, она охватывает весь файл целиком. И если в будущем кто-то изменит в нем хотя бы одно слово, то подписи до и после уже не будут совпадать. Поэтому цифровые отпечатки – это не хеши документов, как можно подумать на первый взгляд.

Под цифровым отпечатком в данном случае понимается целый набор характерных элементов документа, по которому его можно с высокой достоверностью определить в будущем. Современные DLP-решения способны детектировать не только целые файлы, но и их фрагменты. При этом можно даже рассчитать степень соответствия. Такие решения позволяют создавать дифференцированные правила, в которых описаны разные действия для разных процентов совпадения.

Важной особенностью цифровых отпечатков является то, что они могут использоваться не только для текстовых, но и для табличных документов, а также для изображений. Это открывает широкое поле для применения рассматриваемой технологии. Например, можно сделать цифровой отпечаток подписи главного бухгалтера, что позволит пресечь отправку всех отсканированных копий документов, им подписанных.

 

Цифровые метки

Принцип данного метода чрезвычайно прост. На выбранные документы накладываются специальные метки, которые "видны" только клиентским модулям используемого DLP-решения. В зависимости от их наличия система разрешает или запрещает те или иные действия с файлами. Это позволяет не только предотвратить утечку конфиденциальных документов, но и ограничить работу с ними пользователей, что является несомненным преимуществом данной технологии.

К недостаткам данной технологии относится, в первую очередь, ограниченность сферы её применения. Защитить с ее помощью можно только текстовые документы, причем уже существующие. На вновь создаваемые документы это не распространяется. Частично этот недостаток нивелируется способами автоматического создания меток, например, на основе набора ключевых слов. Однако данный аспект сводит технологию цифровых меток к технологии морфологического анализа, то есть, по сути, к дублированию технологий.

Другим недостатком технологии цифровых меток является легкость ее обхода. Достаточно вручную набрать текст документа в письме (не скопировать через буфер обмена, а именно набрать), и данный способ будет бессилен. Поэтому он хорош только в сочетании с другими методами защиты.

 

Инструменты противодействия обходу защиты

Все описанные выше технологии основаны на анализе обычного текста. Однако в некоторых случаях злоумышленники могут использовать различные методы обхода системы защиты, основанные на сокрытии этого текста. Самым простым из них является архивирование пересылаемых документов. Для защиты от этого в DLP-решениях обычно реализуется поддержка разных форматов сжатия. В этом случае файлы распаковываются, а их содержимое проверяется обычным образом. Здесь важно отметить только один момент. В DLP-системе должна присутствовать возможность адекватной реакции на архивы, защищенные паролем. При обнаружении таких файлов они могут, например, перемещаться в карантин.

Следующий способ "спрятать" конфиденциальную информацию – транслитерация. Злоумышленник может просто взять текст и с помощью специальной программы, какого-либо онлайн сервиса или даже вручную переписать его символами латинского алфавита. Для противодействия траслитерации конфиденциальной информации используется очень простой метод – транслитерация заданного семантического ядра. При включении этой функции DLP-система проверяет тексты на наличие как обычно записанных слов, так и их "транслитерационных" аналогов. Причем в некоторых решениях правила преобразования можно задавать вручную.

Еще одним способом обхода DLP-системы является отправка текста в виде картинки (например, скриншот открытого документа). Для противодействия этому методу используются OCR-технологии. То есть система защиты пытается распознать все отправляемые изображения. В случае успеха выделенный текст обрабатывается по обычным правилам.

 

Выводы

На сегодняшний день в арсеналах разработчиков DLP-систем есть несколько  основных метода контентного обнаружения утечек конфиденциальной информации: морфологический и статистический анализы, шаблоны, цифровые отпечатки и метки. Все они отличаются по принципу работы, имеют свои преимущества и недостатки. Так, например, морфологический анализ – универсальная технология, которая может использоваться везде. Правда, при этом она обладает не лучшими показателями по эффективности и ложным срабатываниям.

Шаблоны позволяют с высокой степенью точности обнаруживать попытке передачи стандартизованной информации. Но при этом они бесполезны во всех других случаях. Кроме того, существует вероятность ложных срабатываний системы защиты. Цифровые отпечатки являются очень эффективным средством обнаружения утечек конфиденциальных данных, но они могут использоваться только для контроля пересылки целых существующих документов или изображений или их фрагментов. В случае с одиночными фразами или текстом, написанным своим языком, они не помогут.

Таким образом, из всего вышеизложенного можно сделать очень простой вывод. Современные технологии контентного анализа не конкурируют между собой, а дополняют друг друга. Морфологический анализ является основным, базовым способом обнаружения утечек конфиденциальной информации. Благодаря своей универсальности, он может использоваться практически везде. А шаблоны и цифровые отпечатки усиливают защиту определенных групп конфиденциальных данных – стандартизованной информации, определенных документов или изображений или их фрагментов. Таким образом, в полноценной DLP-системе должны быть реализованы все три технологии, что позволяет добиться ее максимальной эффективности. При этом нужно понимать, что использование их всех не обязательно, все зависит от конкретных условий. Так, например, если в компании нет стандартизованной конфиденциальной информации, то и использовать шаблоны ей не нужно.

В заключение отметим, что ни один метод контентной фильтрации не является стопроцентной гарантией отсутствия утечек конфиденциальной информации. Они весьма успешно справляются с непреднамеренными действиями сотрудников, когда те просто ошибаются или без злого умысла нарушают служебные инструкции (например, копируют документ на "флешку", чтобы поработать дома). С преднамеренными утечками дела обстоят сложнее, поскольку злоумышленники могут попытаться обойти DLP-систему тем или иным способом. Именно поэтому защита конфиденциальной информации должна представлять собой целый комплекс как технических, так и организационных мер, направленных не только на предотвращение утечек, но и на превентивное обнаружение нелояльно настроенных по отношению к компании сотрудников.

 

Комментарии производителей DLP-решений


Алексей Раевский, генеральный директор компании Zecurion
:

«Эффективность различных технологий сравнивать довольно сложно – они все требуют различных входных данных, используют различные принципы работы, и, вообще говоря, предназначены для решения различных задач. Поэтому имеет смысл говорить об эффективности той или иной технологии для решения какой-то конкретной задачи. Например, для поиска структурированной информации нет альтернативы шаблонам и регулярным выражениям, а если речь не идет о контроле сверхсекретной информации и при этом хочется быстро ввести систему в эксплуатацию, не тратя значительных усилий на настройку, цифровые отпечатки будут наиболее предпочтительны. Поэтому специалист, занимающийся развертыванием системы DLP, должен понимать особенности работы всех перечисленных методов и, исходя из конкретной ситуации в конкретной организации, предлагать именно те, которые наилучшим образом удовлетворяют конкретным требованиям.

На мой взгляд, в ближайшем будущем можно ожидать проникновения в область DLP самообучающихся алгоритмов для классификации информации, таких как, например, нейронные сети или метод опорных векторов. Также есть спрос на технологии для автоматизированного анализа и классификации «нетекстовой» информации – графических данных (изображений, чертежей и т. д.) и звуковых файлов. Можно предположить, что эти технологии в ближайшее время превратятся из экзотики в такой же непременный и обязательный атрибут DLP-систем, как морфология и цифровые отпечатки».

 

Константин Пасечников, технический директор компании InfoWatch:

«Каждая из вышеописанных технологий в отдельности не является эффективной в борьбе с утечками информации. Как правильно заметил автор статьи, существующие технологии не конкурируют, а дополняют друг друга. В InfoWatch к такому выводу пришли уже несколько лет назад. И сейчас в нашем продукте, к примеру, нет разделения между морфологическим и статическим анализом: эти две технологии не существуют отдельно, а объединены единым лингвистическим движком - универсальным и эффективным методом контентной защиты информации. Шаг в сторону консолидации или гибридизации технологий представляет собой перспективное направление развития DLP-систем. Гибридный анализ - это следующее технологическое поколение в DLP. У InfoWatch уже есть наработки, которые будут реализованы в рамках следующих версий продукта.

Если говорить о долгосрочных перспективах развития, то наша компания делает ставки на увеличение количества принципиально новых технологий, используемых в Traffic Monitor. Среди них: семантический, синтаксический, структурный и фактографический анализы».


Дмитрий Михеев, эксперт центра информационной безопасности компании «Инфосистемы Джет»:

«Общая задача, которую ставят заказчики перед DLP системой - предоставить такой инструмент, который будет требовать меньше времени при эксплуатации, но при этом позволит максимально полно контролировать поведение людей при обращении с данными.

По нашему мнению, наиболее перспективными можно считать любые технологии, которые упрощают разработку политики обработки данных, ее сопровождение, а также - реакцию на инциденты. Технологии, которые позволяют точнее описать данные, включающие морфологические и семантические методы, OCR-системы, анализ связей, будут все чаще применяться в будущем, т.к. развитие технологий и их широкое проникновение позволят значительно снизить стоимость владения системой.

Вторая перспективная тенденция, которая сама собой напрашивается в общий список - это большая поддержка ОС на основе linux\freebsd, таких как GNU\Linux, Android, MacOS и т.п. Чем дальше, тем более развитым становится рынок платформ, альтернативных wintel, и тем большую  необходимость приобретают средства контроля.

Третье направление, которое, по нашему мнению, с большой вероятностью будет востребовано - интеграция с системами, контролирующими бизнес процессы и непосредственно взаимодействующими с защищаемыми данными. К ним можно отнести системы управления заявками и CRM\ERP системы. Они одновременно выступают и как хранилище защищаемых данных, и как источник знания о критичности хранимых данных. В настоящее время такую информацию о критичности приходится вычислять в процессе внедрения и эксплуатации. Но потенциально это можно делать автоматически».


Подпишитесь
в Facebook

Я уже с вами
Telegram AMПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и эксклюзивных материалах по информационной безопасности.

RSS: Новые статьи на Anti-Malware.ru