Резидентные модули OCR в хостовых DLP-системах: новый уровень защиты от утечек данных в DeviceLock 8

...

Последние 3-4 года экосистема безопасности корпоративных ИТ, включая отрасль и рынок, переживает углубляющийся кризис, порожденный, с одной стороны, коммерциализацией киберпреступности и усилением фактора геополитизации, а, с другой, замедлением идеологического и технологического развития систем защиты данных.

Факторы эти усиливают друг друга, порождая кумулятивный негативный эффект, заметно нарушающий динамический баланс между угрозами корпоративной ИБ и средствами ее обеспечения – причем не в пользу последних.

Удивительно, но каждый очередной год отраслевые аналитики и эксперты в области ИБ провозглашают «годом утечек данных», и это уже никому не кажется феноменальным. Вот и нынешний 2014 год уже стал новым абсолютным чемпионом в этой гонке несмотря на то, что «бежать» предстоит еще квартал – благодаря невиданным доселе по масштабам и последствиям утечкам данных клиентов американской розничной сети Target и ее земляка, онлайн-ритейлера eBay.

Очевидно, что инциденты, связанные с утечками данных, следует разделять на две группы – вызванные внешними атаками и «внутренние» инсайдерские утечки. Существенную часть инцидентов, связанных с внешними атаками, можно предотвратить применением средств защиты компьютеров от заражения вредоносным ПО (вирусами, троянами, APT). Для борьбы с инсайдерскими утечками из корпоративных ИС наиболее эффективными компонентами являются специализированные системы защиты – так называемые data leak prevention или DLP-системы. Они позволяют блокировать не субъект или первопричину утечки (вредоносное ПО или действия инсайдера), а непосредственно ее саму – например, отсылку конфиденциального документа по личной электронной почте или его выгрузку на сайт социальной сети. Применение DLP-систем в любом случае необходимо потому, что угрозы утечек создаются не только и не столько хакерскими атаками извне, сколько обычными работниками предприятия – невольно, по халатности или злому умыслу.

Основным «оружием» всех современных DLP-систем являются технологии контентного анализа и фильтрации, позволяющие выявлять в текстах документов, файлов, писем, вложений и прочих объектов данные, запрещенные политикой ИБ, и блокировать операции по их передаче за пределы компьютера или сети организации, будь то печать на принтере, запись на флешку, передача по Skype или почте и т.д. Именно на таких технологиях производители DLP-систем на таких технологиях делают основной акцент, усиленно развивая и совершенствуя методы контентного анализа - причем порой в ущерб фундаментальным контекстным механизмам контроля и предотвращения утечки. В качестве примеров прогрессивных технологий можно привести морфологический анализ, поддержку и развитые заготовки шаблонов регулярных выражений, детектирование комбинаций ключевых слов с поддержкой промышленных и отраслевых словарей, цифровые отпечатки документов, и пр. Можно утверждать, что сегодня в целом достигнут достаточно высокий уровень надежности и эффективности детектирования и фильтрации текстового контента.

Однако, до сих пор ни в одной из доступных на российском рынке DLP-систем не был достаточно надежно перекрыт такой простой и доступный даже неопытным пользователям ПК прием обхода контентной защиты, как конвертация текстовых данных в графические изображения, к которым методы анализа текстовых форматов принципиально неприменимы. Причем пользователи вовсе не обязательно конвертируют текст в графику со злым умыслом – нормальной бизнес-практикой является пересылка сканированных документов, причем как в форме графических файлов, так и после конвертации в PDF, а также в виде вложений в обычные документы MS Office или электронные сообщения.

Конечно же, этот недостаток, равно как и средство его устранения, не являются секретом. Ряд российских и зарубежных разработчиков DLP-систем уже в той или иной форме используют в своих продуктах технологии обратной конвертации графики в текст (Optical Character Recognition), интегрируя OCR-модули в DLP-системы. К сожалению, в силу обусловленных историческими причинами дороговизны и «тяжеловесности» OCR-модулей их применение в современных DLP-системах ограничено, как правило, DLP-шлюзами или DLP-серверами – то есть, от утечек данных в графической форме защищается только офисная сеть и только при их передаче по сетевым каналам связи. При этом исходящие коммуникации ноутбуков и лэптопов сотрудников при их работе из-за пределов корпоративной сети – например, в командировке или дома – принципиально неконтролируемы OCR-модулями DLP-шлюзов. Кроме того, реализационные ограничения OCR-компонентов многих существующих DLP-систем позволяют анализировать только файлы графических форматов, но не изображения, встроенные в офисные документы. В результате остается полностью открытым такой примитивный и общедоступный канал утечки данных, как «вставить скан документа в Word и отослать по почте». Еще одним неконтролируемым сценарием утечки информации является копирование графических данных с ПК на съемные накопители или их печать на локальных принтерах, поскольку для этих типов операций перехват и пересылка проверяемой графики для анализа на DLP-сервер в реальном масштабе практически нереализуемы.

Именно на разработку OCR-компонента, свободного от всех перечисленных недостатков, и его интеграцию в свое DLP-решение сфокусировала усилия компания Смарт Лайн. В конце октября 2014 г. появилась новая версия DeviceLock DLP 8, исполнительные агенты которого оснащены резидентным OCR-модулем, обеспечивающим распознавание графических образов текста в изображениях как в виде файлов графических форматов, так и встроенных в документы. При попытке передачи пользователем данных и файлов по сетевым каналам, их печати или копирования на устройства хранения DeviceLock DLP в соответствии с заданными DLP-политиками применяет OCR-технологии для анализа, детектирования и фильтрации графических образов конфиденциальных текстовых данных в сканах документов, снимках экранов и изображениях внутри офисных документов.

Важно подчеркнуть, что OCR-модуль DeviceLock DLP является резидентным, встроенным в агент, который в свою очередь устанавливается на всех контролируемых компьютерах и обеспечивает инспекцию и протоколирование приложений, использующих как сетевые каналы, причем независимо от используемых ими портов и способа выхода в Интернет, так и локальные периферийные устройства. Принципиальным преимуществом такой архитектуры является реализация защитных действий по блокировке и протоколированию почтовых отправлений, переписки и передачи файлов в социальных сетях и через службы мгновенных сообщений, в том числе содержащих данные в графическом формате, в момент отправки данных по сети «на лету» непосредственно на рабочем компьютере сотрудника – будь то офисная рабочая станция, лэптоп вне корпоративной сети или даже BYOD-устройство в терминальной среде. В результате работоспособность DLP-системы DeviceLock в целом и OCR-компонента в частности никак не зависит от доступности корпоративной сети или подключения к серверам, что позволяет службам ИБ обеспечить безопасность почтовых коммуникаций сотрудников даже в условиях, когда их бизнес-функции требуют мобильности.

Другой пример практического использования резидентного OCR-модуля и архитектурных особенностей DeviceLock DLP – контроль данных, в том числе в графическом формате, в распределенной корпоративной среде, когда организация располагает широкой сетью филиалов и подразделений, что делает нерациональным использование DLP-серверов в массе либо в силу малочисленности филиалов, либо вследствие недостаточной пропускной способности сети передачи данных. К примеру, DeviceLock DLP 8 можно применить для защиты от утечек экзаменационных материалов ЕГЭ, распространяемых в графической форме и используемых в тысячах образовательных учреждений, зачастую не имеющих достаточно «быстрых» каналов связи для «внешнего» анализа данных на DLP-серверах.

OCR-технологии, применяемые в агентах DeviceLock для защиты обычных и виртуальных рабочих сред, позволяют как уменьшить информационные риски, так и обеспечить неукоснительное исполнения сотрудниками политик безопасности внутри и за пределами компании. Помимо DLP-агентов OCR-технологии используются в новом компоненте комплекса – DeviceLock Discovery, предназначенном для сканирования компьютеров пользователей, сетевых каталогов и систем хранения данных с целью выявления и устранения нарушений политик безопасного хранения данных.