AM_Bot

С утечками данных будут бороться гибридные технологии

В этой теме 9 сообщений

В настоящее время на рынке систем предназначенных для защиты конфиденциальной информации от утечек (DLP), существует несколько основных базовых технологий обнаружения, среди которых лингвистический и контекстный анализ, а также цифровые отпечатки и метки.

Эти технологии по отдельности на практике оказываются не так эффективны и универсальны, как хотелось бы, поэтому будущее DLP логично вырисовывается в чертах гибридной технологии и гибридного анализа, о котором и пойдет речь в этой публикации. читать дальше

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Хорошее название - "гибридные технологии"

напоминает "гибридные двигатели" (вы можете ехать одновременно как по-старинке на бензине, так и на электричестве) =)

Да, все разработчики DLP используют по несколько методов детектирования конфиденциального контента.

У меня другая классификация, нежели в статье, но суть та же:

64cd3.png

Не соглашусь, что "Гибридный анализ ... пока не используется ни в одном из существующих на рынке DLP продукте."

Скорее, это в российских реалиях пока не используется.

Например, западные решения DLP (Websense, Symantec, McAfee&Reconnex, RSA DLP, Trend Micro LeakProof и другие) вовсю используют смесь цифровых отпечатков и лингвистики для тонкого управления политиками:

  • Данные из баз данных обнаруживаются по "отпечаткам баз данных" (Websense, Symantec).
  • Статические данные обнаруживаются однозначно на базе цифровых отпечатков, - и по ним применяют блокирующие политики.
  • Новые и динамические данные обнаруживаются на базе контентного анализа и отчасти - регулярных выражений, - но по ним блокировки не включают, т.к. всегда будут ложные срабатывания.
Другой вопрос в том, что базы для контентного анализа западных решений не проработаны так хорошо, как InfoWatch, для качественного обнаружения русскоязычного контента.

Сегодня Websense DSS, Symantec DLP в российских предприятиях работает в основном по цифровым отпечаткам

(80% инцидентов утечки, которые видят офицеры безопасности, создается на основе цифровых отпечатков массивов с документами и отпечатков баз данных, и только 20% инцидентов - по встроенным шаблонам - регулярные выражения, ключевые слова);

В то время как в западных внедрениях целых 50% инцидентов создаются на основе анализа по словам (английский язык), 50% - отпечатки. Это ли не гибридные технологии?

Думаю, в течение ближайшего года InfoWatch проинтегрирует цифровые отпечатки, а кто-то из Symantec, Websense, McAfee, RSA создадут хорошую пригодную для России словарную базу, - и у всех будут так называемые "гибридные технологии".

  • Upvote 5

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Н.Зенин, спасибо за диаграмму, очень удобная для анализа.

Не соглашусь, что "Гибридный анализ ... пока не используется ни в одном из существующих на рынке DLP продукте."

Скорее, это в российских реалиях пока не используется.

Если под гибридностью понимать отпечатки + примитив в виде регулярных выражений и словарей, то да, это есть у всех. Я же в имел в виду под гибридностью сращивание продвинутого лингвистический и контекстного анализа с цифровыми отпечатками. Именно такой технологический коктейль с моей точки зрения был бы наиболее эффективен.

Другой вопрос в том, что базы для контентного анализа западных решений не проработаны так хорошо, как InfoWatch, для качественного обнаружения русскоязычного контента.

Все таки простые словари или тем более регулярные выражения никак не поднимается язык назвать лингвистикой. Для английского языка, возможно, это и может прокатить как лингвистику, но для более сложных европейских языков, таких как русский или немецкий, этого будет недостаточно. Нужно понимать морфологию, синонимы, понимать простейшие замены и т.п.

Продуктов, где есть и такая продвинутая лингвистика и цифровые отпечатки, пока на рынке нет. Ближе всего сейчас к этому именно упомянутый выше Инфовотч (в версии 3.3 это уже будет).

В то время как в западных внедрениях целых 50% инцидентов создаются на основе анализа по словам (английский язык), 50% - отпечатки. Это ли не гибридные технологии?

Да, это уже неплохо, но должен быть перевес в сторону лингвистики ИМХО. Динамические данные, которые составляют основную часть исходящего трафика в виде почты, IM, постов в блогах и форумах и т.п., - набиваются руками отправителем, как правило, это просто непаханное поле. Утечки такого типа, когда человек прочитал документ и по аське своими словами сливает основные мысли их него, никакими отпечатки не обнаружат (нет копирования из исходника). Явно есть куда работать в плане эффективности лингвистического и контекстного анализа.

Думаю, в течение ближайшего года InfoWatch проинтегрирует цифровые отпечатки, а кто-то из Symantec, Websense, McAfee, RSA создадут хорошую пригодную для России словарную базу, - и у всех будут так называемые "гибридные технологии".

Полностью согласен, все именно к этому и идет. Клиенты от это только выиграют.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1. Цифровые отпечатки хороши только если документы почти идентичны с заданными или скомпонованы из нескольких заданных. это крайне примитивная технология, которая еще много лет назад была реализована в другом нашем проекте www.plagiatinform.ru

2. Наиболее эффективным явялется поиск документов похожих по содержанию, ничего ощего не имеющий с фингерпринтами.

3.Насчет регулярных выражений и отслеживаний информаций уходящей во внешний мир из баз данных. Это поддерживают сегодня кроме нас только макафи и вебсенс, Но вебсенс вообще поддерживает честно говоря криво. Мы исследовали их алгоритм -- там просто каждой записи конкретной таблицы ставится своеобразный md5 хэш и проверка идет на его совпадение. То есть если появляются новые записи в БД и их отсылают во внешний мир ничего отслежено не будет, пока не перестроится вебсенсовский индекс регуллярных выражений, то есть не доиндексируется искомая таблица искомой базы. В том что касается макафи -- там чуть лучше с регулярными выражениями чем у вебсенс, НО нельзя отследить если берем из таблицы базы данных записи и отсылаем их не целиком а частично. У нас же есть специальный мезанизим для таких случаев, который кстати будет продемонстрирован на конференции лукойла в сочи в июле этого года. Для желающих велкам с конца июля обращаться к нашим менеджерам -- вам все покажут.

4. И это все не гибридные технологии, а я бы структурировал так

- Ряд 1

- поиск по словам (умеют все кто с морфологией кто то без)\

- поиск по фразам с расстоянием между словамм (умеют очень немногие)

- поиск документгов похожих по содержанию. Умеем только мы и это запатентовано

- Ряд 2

-- фингепнринты. Умеют много систем и различия по икачеству на самом деле незначительнв.

-ряд 3

- простые регулярные выражения (мы, вебенс, макафи)

- сложные регулярные выражения и технологии контроля информации взятой из базы данных если не вся запись берется а только часть и впроизвольном порядке (пока только мы).

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
- поиск документгов похожих по содержанию. Умеем только мы и это запатентовано

Назову только одного игрока, но очень известного (выходцы из SAIC), кто это делает - Content Analyst. Среди их наворотов, как ты это называешь "поиск похожих", значится под именем Concept Search (http://www.contentanalyst.com/html/tech/technologies_conceptual.html).

Но мне больше нравится их Relationship Discovery и Name Tracking and Disambiguation ;)

Они сами разумеется такой мелочью как DLP не занимаются, но они предоставляют SDK...

Естественно есть и другие игроки, но эти просто самые известные.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Search (http://www.contentanalyst.com/html/tech/technologies_conceptual.html).

Но мне больше нравится их Relationship Discovery и Name Tracking and Disambiguation ;)

Они сами разумеется такой мелочью как DLP не занимаются, но они предоставляют SDK...

Ашот а теперь уж расскажи подробней что за звери

- Relationship Discovery

- Name Tracking and Disambiguation

А ты сам щупал их СДК? Как на русском языке работает?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
А ты сам щупал их СДК? Как на русском языке работает?

сам пока не щупал. есть идеи пощупать, но нет времени.

русский один из основных для них, вместе с китайским и арабским (специфика заказчиков в погонах такова ;)). поэтому как-то оно работать должно. тем-более они везде декларируют, что язык им вообще не важен, они опереруют т.н. "понятиями" (в их терминологии - "meanings"). как реально это работает - хрен его знает ;)

Ашот а теперь уж расскажи подробней что за звери

- Relationship Discovery

- Name Tracking and Disambiguation

- Relationship Discovery - поиск связей между заданным понятием и данными из базы, вне зависимости от языка.

- Name Tracking and Disambiguation - это типа тогоже "Relationship Discovery", но заточенное конкретно под людей. Т.е. для заданного объкта (человек) ищутся все его имена, клички, псевдонимы, различные написания имени на всех языках. Причем, с учетом таких классических случаев, когда в английском языке имя или фамилия может в прямом написании означать какое-то слово ("классика жанра" фамилия Cruise, как Tom Cruise). Я знаю сколько nexplore.com стоило денег и времени такое сделать только для англ. имен, а эти ребятазаявляют не только для англ. ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
сам пока не щупал. есть идеи пощупать, но нет времени.

русский один из основных для них, вместе с китайским и арабским (специфика заказчиков в погонах такова ;)). поэтому как-то оно работать должно. тем-более они везде декларируют, что язык им вообще не важен, они опереруют т.н. "понятиями" (в их терминологии - "meanings"). как реально это работает - хрен его знает ;)

А есть у тебя само СДК? Или его легко у них взять? Я бы без проблем дал своим ребятам пощупать. Народу благо у нас стало много и есть кому дать.

- Relationship Discovery - поиск связей между заданным понятием и данными из базы, вне зависимости от языка.

- Name Tracking and Disambiguation - это типа тогоже "Relationship Discovery", но заточенное конкретно под людей. Т.е. для заданного объкта (человек) ищутся все его имена, клички, псевдонимы, различные написания имени на всех языках. Причем, с учетом таких классических случаев, когда в английском языке имя или фамилия может в прямом написании означать какое-то слово ("классика жанра" фамилия Cruise, как Tom Cruise). Я знаю сколько nexplore.com стоило денег и времени такое сделать только для англ. имен, а эти ребятазаявляют не только для англ. ;)

Если я верно понял то это не поиск похожих а нахождение взаимосвязей сущностей или как? А далее я вообще не понял -- как сама система по имени человека может определить сама его клички и т.д. -- прям фантатсика какая то... То что крутая морфология и спеллинг и разное написание -- охотно верю, а вот клички -- расскажи подробней как это.

А вообще я на след. неделе буду в Москве -- давай пересечемся -- расскажешь -- уж очень любопытно...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
А есть у тебя само СДК? Или его легко у них взять?

пока нет. даже не интересовался как его получить. Выходы на них у меня есть, впринципе натравить нашего американского Business Developer я могу. Проблема в том, что некогда этим заниматься - они же не просто дадут SDK, а захотят пообщаться на разные темы, а это уже надо готовиться. Ладно, посмотрим-обсудим при встрече...

Если я верно понял то это не поиск похожих а нахождение взаимосвязей

конкретно эти два типа поиска - да. поиск похожих это у них называется Concept Search, я же об это написал.

А как оно работает при поиске пседонимов - ну хрен знает, но уверен что как-то работает ;) Как я понимаю, они строят граф всех понятий (вершины графа -понятия) и отслеживают связи между ними.

А вообще я на след. неделе буду в Москве -- давай пересечемся

звони. но только сильно много я тебе про это не расскажу, т.к. не вникал глубоко, но думаю мы по другим темам тоже найдем о чем поговорить ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Создайте учетную запись или войдите, чтобы комментировать

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!


Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.


Войти с помощью Facebook Войти Войти с помощью Twitter
Anti-Malware.ru Вконтакте   Anti-Malware.ru в Facebook   Anti-Malware.ru в Twitter   Anti-Malware.ru в LinkedIn   RSS
  • Сообщения

    • Sergey22101979s
      Площадку надо свою делать и развивать её. А потом продавать места на ней. И не важно какую площадку - сайт, группу в соцсети, или что-то тому подобное.
    • homeobed
      На дому за копейки работать - дело нехитрое) Вот чтобы зарабатывать приличные деньги, на одних комментариях далеко не уедешь)
    • Mike
      Вышел McAfee VirusScan Enterprise 8.8.0 Patch 10  
    • Wenderoy
      Да, лучше удалить. Но это, разумеется, решает администрация... Я никакой не тролль, ANDYBOND прекрасно это понимает, просто именно с ним был разлад безо всякой причины, подробности приводить не буду, но теперь он старается как можно больше "навредить" мне. Собственно, вот отзывы про PS - https://www.mywot.com/ru/scorecard/provisionsecurity.ru Думаю, комментарии будут излишними. Есть очень много свидетелей, которых "примерная" администрация Provisionsecurity даже "поливала" нецензурной лексикой, у меня есть все скриншоты и т. д. И после всего этого надо подумать, а стоит ли верить таким людям? Это я в качестве отступления. Главное - то, что я устал здесь распинаться, тратя свое личное время, что идет только на руку уже упомянутым участниками форума. Все, что мне надо было доказать, я доказал, пользователи моего приложения знают и понимают мои цели и стремления, я ни от кого ничего не скрываю. Поэтому программу уже используют многие, а это значит, что дело поставлено на рельсы. Самое смешное, что на каждый мой аргумент, который я не поленился снабдить всей необходимой информацией в форме ссылок, скриншотов, записей, копий писем, сообщений лабораторий etc, в ответ мне летят одни и те же фразы: "мошенник", "вирусописатель", "тролль". Так кто же больше попадает под значение последнего слова? Просто упомяну еще пару вещей. Когда я объяснял, почему продукт детектит пустой файл, все равно меня никто не слышал. Каким же, интересно, образом мне следует растолковать это? Были приведены доказательства, что я часть баз собираю с ресурса VirusShare (благо, имеются очень хорошие источники самой разнообразной информации), где AVP в свое время почему-то пометил файл как Trojan... (где-то на предыдущих страницах все чрезвычайно подробно описано). Так вот, копируя MD5, в комплект попала и хеш-сумма пустого файла, вследствие чего как бы Вы его ни переименовывали, все рано будет сработка продукта (кстати, ее уже нет). Далее. Насчет "мошенник" и "вирусописатель". Если зимние переписки (не просто отчетов автоматического анализа лабораторий) с вирусным аналитиком McAfee ни о чем Вам не говорят, это, как говорится, не мои проблемы. Другие вендоры, да практически все (даже популярные Avast, Qihoo и др.) устанавливаются втихомолку вместе с другим ПО (DRP Solutions, различные дополнения для монетизации в пакеты дистрибутивов), но их Вы почему-то "вирусописателями"  не называете. И последнее. Насчет "мошенник". Я никого не принуждаю устанавливать KAR, каждый делает это добровольно. Лицензионное соглашение и Privacy Statment присутствуют на сайте, там все четко и ясно описано. На сервер высылаются исключительно анонимные отчеты, как и в любых других разработках аналогичного типа, не более того.  Kuranin Anti-Ransomware распространяется абсолютно бесплатно, никакой рекламы ни в продукте, ни даже на сайте, т. к. это мое хобби. Поэтому здесь не вижу ничего, связанного с мошенничеством. Это очень краткое обобщение, все мои подробные ночные отписки на однотипные бессмысленные сообщения можно посмотреть, листая предыдущие ни много ни мало двенадцать страниц. @VMS, радует, что еще есть адекватные люди, которые умеют слушать. Да, к сожалению, это не те времена, когда жизнь кипела в каждом уголке Anti-Malware и других подобных форумов. Обидно, что перевились разработчики-добровольцы, которые были очень активны в 2004-2014 годах. Сейчас в основном крупные компании все вытеснили, да есть те, кто просто сдался (Александр Калинин, его судьба мне не известна, но смею предположить, что он воплотил свое хобби в жизнь; Kerish, который, правда, стал чрезвычайно полезной утилитой Kerish Doctor, а ведь совсем немногие знают прошлое этого творения; ScreamAV, бесплатныq антивирус то ли из Индонезии, то ли с Филиппин; путем долгого анализа удалось выяснить, что создатели данного антивируса примкнули к проекту SmadAV;  SMK антивирус, когда-то известный в узких кругах; "Зоркий глаз" Петелина Александра;  AWS Core, приостановивший свое развитие и т. п.) Вообще обожаю древние сайты, особенно варианты на narod.ru и им подобные, пропахшие стариной и историей. Очень приятные ощущения, как будто бы открыл давно забытую, но вновь найденную на чердаке книгу с пожелтевшими от времени листами.  А еще очень много полезных ресурсов, которых уже нет, но они сохранились в "архиве". Все это "богатство" сложно отыскать, но зато там есть чрезвычайно много полезной информации... Вот, кстати, один из примеров: https://web.archive.org/web/20040905203536/http://www.winchanger.narod.ru:80/ Или https://web.archive.org/web/20070624081145/http://winchanger.whatis.ru:80/ Как бонус прилагаю собственную коллекцию малоизвестных продуктов любителей информационной безопасности, среди них, кстати, все вышеупомянутые образцы! https://mega.nz/#!tZBkkCKa!0WzfYt4A1zK4aCvVLtu3FLt7pfPIp7wWtyPIr9c-cbo Может, кому пригодится...
    • AM_Bot
      На вопросы Anti-Malware.ru любезно согласился ответить Дмитрий Мананников, бизнес-консультант по безопасности. Это интервью продолжает цикл публикаций «Индустрия в лицах». Читать далее