С утечками данных будут бороться гибридные технологии

Июнь 10, 2009

В настоящее время на рынке систем предназначенных для защиты конфиденциальной информации от утечек (DLP), существует несколько основных базовых технологий обнаружения, среди которых лингвистический и контекстный анализ, а также цифровые отпечатки и метки.

Эти технологии по отдельности на практике оказываются не так эффективны и универсальны, как хотелось бы, поэтому будущее DLP логично вырисовывается в чертах гибридной технологии и гибридного анализа, о котором и пойдет речь в этой публикации. читать дальше

Июнь 24, 2009

Хорошее название - "гибридные технологии"

напоминает "гибридные двигатели" (вы можете ехать одновременно как по-старинке на бензине, так и на электричестве) =)

Да, все разработчики DLP используют по несколько методов детектирования конфиденциального контента.

У меня другая классификация, нежели в статье, но суть та же:

Не соглашусь, что "Гибридный анализ ... пока не используется ни в одном из существующих на рынке DLP продукте."

Скорее, это в российских реалиях пока не используется.

Например, западные решения DLP (Websense, Symantec, McAfee&Reconnex, RSA DLP, Trend Micro LeakProof и другие) вовсю используют смесь цифровых отпечатков и лингвистики для тонкого управления политиками:

Данные из баз данных обнаруживаются по "отпечаткам баз данных" (Websense, Symantec).
Статические данные обнаруживаются однозначно на базе цифровых отпечатков, - и по ним применяют блокирующие политики.
Новые и динамические данные обнаруживаются на базе контентного анализа и отчасти - регулярных выражений, - но по ним блокировки не включают, т.к. всегда будут ложные срабатывания.

Другой вопрос в том, что базы для контентного анализа западных решений не проработаны так хорошо, как InfoWatch, для качественного обнаружения русскоязычного контента.

Сегодня Websense DSS, Symantec DLP в российских предприятиях работает в основном по цифровым отпечаткам

(80% инцидентов утечки, которые видят офицеры безопасности, создается на основе цифровых отпечатков массивов с документами и отпечатков баз данных, и только 20% инцидентов - по встроенным шаблонам - регулярные выражения, ключевые слова);

В то время как в западных внедрениях целых 50% инцидентов создаются на основе анализа по словам (английский язык), 50% - отпечатки. Это ли не гибридные технологии?

Думаю, в течение ближайшего года InfoWatch проинтегрирует цифровые отпечатки, а кто-то из Symantec, Websense, McAfee, RSA создадут хорошую пригодную для России словарную базу, - и у всех будут так называемые "гибридные технологии".

Июнь 24, 2009

Н.Зенин, спасибо за диаграмму, очень удобная для анализа.

Не соглашусь, что "Гибридный анализ ... пока не используется ни в одном из существующих на рынке DLP продукте."
Скорее, это в российских реалиях пока не используется.

Если под гибридностью понимать отпечатки + примитив в виде регулярных выражений и словарей, то да, это есть у всех. Я же в имел в виду под гибридностью сращивание продвинутого лингвистический и контекстного анализа с цифровыми отпечатками. Именно такой технологический коктейль с моей точки зрения был бы наиболее эффективен.

Другой вопрос в том, что базы для контентного анализа западных решений не проработаны так хорошо, как InfoWatch, для качественного обнаружения русскоязычного контента.

Все таки простые словари или тем более регулярные выражения никак не поднимается язык назвать лингвистикой. Для английского языка, возможно, это и может прокатить как лингвистику, но для более сложных европейских языков, таких как русский или немецкий, этого будет недостаточно. Нужно понимать морфологию, синонимы, понимать простейшие замены и т.п.

Продуктов, где есть и такая продвинутая лингвистика и цифровые отпечатки, пока на рынке нет. Ближе всего сейчас к этому именно упомянутый выше Инфовотч (в версии 3.3 это уже будет).

В то время как в западных внедрениях целых 50% инцидентов создаются на основе анализа по словам (английский язык), 50% - отпечатки. Это ли не гибридные технологии?

Да, это уже неплохо, но должен быть перевес в сторону лингвистики ИМХО. Динамические данные, которые составляют основную часть исходящего трафика в виде почты, IM, постов в блогах и форумах и т.п., - набиваются руками отправителем, как правило, это просто непаханное поле. Утечки такого типа, когда человек прочитал документ и по аське своими словами сливает основные мысли их него, никакими отпечатки не обнаружат (нет копирования из исходника). Явно есть куда работать в плане эффективности лингвистического и контекстного анализа.

Думаю, в течение ближайшего года InfoWatch проинтегрирует цифровые отпечатки, а кто-то из Symantec, Websense, McAfee, RSA создадут хорошую пригодную для России словарную базу, - и у всех будут так называемые "гибридные технологии".

Полностью согласен, все именно к этому и идет. Клиенты от это только выиграют.

Июнь 24, 2009

1. Цифровые отпечатки хороши только если документы почти идентичны с заданными или скомпонованы из нескольких заданных. это крайне примитивная технология, которая еще много лет назад была реализована в другом нашем проекте www.plagiatinform.ru

2. Наиболее эффективным явялется поиск документов похожих по содержанию, ничего ощего не имеющий с фингерпринтами.

3.Насчет регулярных выражений и отслеживаний информаций уходящей во внешний мир из баз данных. Это поддерживают сегодня кроме нас только макафи и вебсенс, Но вебсенс вообще поддерживает честно говоря криво. Мы исследовали их алгоритм -- там просто каждой записи конкретной таблицы ставится своеобразный md5 хэш и проверка идет на его совпадение. То есть если появляются новые записи в БД и их отсылают во внешний мир ничего отслежено не будет, пока не перестроится вебсенсовский индекс регуллярных выражений, то есть не доиндексируется искомая таблица искомой базы. В том что касается макафи -- там чуть лучше с регулярными выражениями чем у вебсенс, НО нельзя отследить если берем из таблицы базы данных записи и отсылаем их не целиком а частично. У нас же есть специальный мезанизим для таких случаев, который кстати будет продемонстрирован на конференции лукойла в сочи в июле этого года. Для желающих велкам с конца июля обращаться к нашим менеджерам -- вам все покажут.

4. И это все не гибридные технологии, а я бы структурировал так

- Ряд 1

- поиск по словам (умеют все кто с морфологией кто то без)\

- поиск по фразам с расстоянием между словамм (умеют очень немногие)

- поиск документгов похожих по содержанию. Умеем только мы и это запатентовано

- Ряд 2

-- фингепнринты. Умеют много систем и различия по икачеству на самом деле незначительнв.

-ряд 3

- простые регулярные выражения (мы, вебенс, макафи)

- сложные регулярные выражения и технологии контроля информации взятой из базы данных если не вся запись берется а только часть и впроизвольном порядке (пока только мы).

Июнь 24, 2009

- поиск документгов похожих по содержанию. Умеем только мы и это запатентовано

Назову только одного игрока, но очень известного (выходцы из SAIC), кто это делает - Content Analyst. Среди их наворотов, как ты это называешь "поиск похожих", значится под именем Concept Search (http://www.contentanalyst.com/html/tech/technologies_conceptual.html).

Но мне больше нравится их Relationship Discovery и Name Tracking and Disambiguation

Они сами разумеется такой мелочью как DLP не занимаются, но они предоставляют SDK...

Естественно есть и другие игроки, но эти просто самые известные.

Июнь 25, 2009

Search (http://www.contentanalyst.com/html/tech/technologies_conceptual.html).
Но мне больше нравится их Relationship Discovery и Name Tracking and Disambiguation

Они сами разумеется такой мелочью как DLP не занимаются, но они предоставляют SDK...

Ашот а теперь уж расскажи подробней что за звери

- Relationship Discovery

- Name Tracking and Disambiguation

А ты сам щупал их СДК? Как на русском языке работает?

Июнь 25, 2009

А ты сам щупал их СДК? Как на русском языке работает?

сам пока не щупал. есть идеи пощупать, но нет времени.

русский один из основных для них, вместе с китайским и арабским (специфика заказчиков в погонах такова ). поэтому как-то оно работать должно. тем-более они везде декларируют, что язык им вообще не важен, они опереруют т.н. "понятиями" (в их терминологии - "meanings"). как реально это работает - хрен его знает

Ашот а теперь уж расскажи подробней что за звери
- Relationship Discovery

- Name Tracking and Disambiguation

- Relationship Discovery - поиск связей между заданным понятием и данными из базы, вне зависимости от языка.

- Name Tracking and Disambiguation - это типа тогоже "Relationship Discovery", но заточенное конкретно под людей. Т.е. для заданного объкта (человек) ищутся все его имена, клички, псевдонимы, различные написания имени на всех языках. Причем, с учетом таких классических случаев, когда в английском языке имя или фамилия может в прямом написании означать какое-то слово ("классика жанра" фамилия Cruise, как Tom Cruise). Я знаю сколько nexplore.com стоило денег и времени такое сделать только для англ. имен, а эти ребятазаявляют не только для англ.

Июнь 25, 2009

сам пока не щупал. есть идеи пощупать, но нет времени.
русский один из основных для них, вместе с китайским и арабским (специфика заказчиков в погонах такова ). поэтому как-то оно работать должно. тем-более они везде декларируют, что язык им вообще не важен, они опереруют т.н. "понятиями" (в их терминологии - "meanings"). как реально это работает - хрен его знает

А есть у тебя само СДК? Или его легко у них взять? Я бы без проблем дал своим ребятам пощупать. Народу благо у нас стало много и есть кому дать.

- Relationship Discovery - поиск связей между заданным понятием и данными из базы, вне зависимости от языка.
- Name Tracking and Disambiguation - это типа тогоже "Relationship Discovery", но заточенное конкретно под людей. Т.е. для заданного объкта (человек) ищутся все его имена, клички, псевдонимы, различные написания имени на всех языках. Причем, с учетом таких классических случаев, когда в английском языке имя или фамилия может в прямом написании означать какое-то слово ("классика жанра" фамилия Cruise, как Tom Cruise). Я знаю сколько nexplore.com стоило денег и времени такое сделать только для англ. имен, а эти ребятазаявляют не только для англ.

Если я верно понял то это не поиск похожих а нахождение взаимосвязей сущностей или как? А далее я вообще не понял -- как сама система по имени человека может определить сама его клички и т.д. -- прям фантатсика какая то... То что крутая морфология и спеллинг и разное написание -- охотно верю, а вот клички -- расскажи подробней как это.

А вообще я на след. неделе буду в Москве -- давай пересечемся -- расскажешь -- уж очень любопытно...

Июнь 25, 2009

А есть у тебя само СДК? Или его легко у них взять?

пока нет. даже не интересовался как его получить. Выходы на них у меня есть, впринципе натравить нашего американского Business Developer я могу. Проблема в том, что некогда этим заниматься - они же не просто дадут SDK, а захотят пообщаться на разные темы, а это уже надо готовиться. Ладно, посмотрим-обсудим при встрече...

Если я верно понял то это не поиск похожих а нахождение взаимосвязей

конкретно эти два типа поиска - да. поиск похожих это у них называется Concept Search, я же об это написал.

А как оно работает при поиске пседонимов - ну хрен знает, но уверен что как-то работает Как я понимаю, они строят граф всех понятий (вершины графа -понятия) и отслеживают связи между ними.

А вообще я на след. неделе буду в Москве -- давай пересечемся

звони. но только сильно много я тебе про это не расскажу, т.к. не вникал глубоко, но думаю мы по другим темам тоже найдем о чем поговорить

С утечками данных будут бороться гибридные технологии

Recommended Posts

AM_Bot 48

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Н.Зенин 30

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Leo 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Ashot 110

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Leo 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Ashot 110

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Leo 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Ashot 110

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Объявления

Сообщения

Просмотр

Активность

Отслеживаемый контент