Перейти к содержанию
Сергей Ильин

DLP на базе цифровых отпечатков

Recommended Posts

Сергей Ильин

Еще раз, для тех кто до сих пор не понял:

digital fingerprints и fingerprints (а далее по цепочке ассоциаций - "биометрия") это не одно и тоже wink.gif

Мы тут не биометрию и сканы пальчиков обсуждаем! Мы говорим о технологии digital fingerprints, применяемой в том числе, для обнаружения фактов утечки конфиденциальных данных! С таким же успехом можно обсуждать вирусы гриппа в теме про полиморфные компьютерные вирусы. ;)

Просьба прекратить оффтоп!

Чужеродные посты выделены выделены в отдельную тему.

http://www.anti-malware.ru/forum/index.php?showtopic=7234

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo
Пилоты по внедрению решений на отпечатках проходят "на ура" - отличный уровень детекта, хорошая производительность, простота добавления.

Все верно -- это просто показуха. То есть цифровые отпечатки позволяют найти только абзацы или части документов почти идентичные заданым.

Но поддерживать такие решения компании не в состоянии - по оценкам самих компаний, около 10% документов меняются ежедневно. В компании нет человека, который мог бы оценить конфиденциальность любого нового и входящего документа, поэтому нужно вводить ответственного по категориям (производство, финансы, R&D и т.д.). Большинство компаний возлагают ответственность за метку (отпечаток) документа на автора, а это против инсайдеров не помогает.

Рустэм -- в точку. Большое тебе спасибо что ты так аргументировано говоришь мягко подводя к возможностям поиска документов похожих по содержанию, которые есть в контуре информационной безопаснсти СофтИнофрм!

( http://www.searchinform.ru/main/full-text-...n-security.html )

Так как в поисковых и т.д. технологиях мы крутимся давно, то по повоуд фингепринтов могу пояснить -- и именно так кстати это работает у вебсенса. У нас в проекте www/plagiatinform.ru это давно было, но в контур инфобеза мы не стали это включать именно из за низкой эффективности. Итак алогоритм в очень упрощенной форме

-- текст бьется на куски. (например абзацы или просто по какому то размеру --- не принципиально)

-- кусок бьется на подкуски (например по фразам или например по 10 слов и т.д.)

-- в каждом подкуске вместо слов ставим их айдишники

-- считаем контрольную сумму айдишников.

Методы подсчета есть разные и хитростей тоже есть много. Но в общем это все. Далее если в куске исходного документьа и того с чем сравниваем много одинаковых по кэшу подкусков то считаем что похоже. И далее апроксимируем это на весь документ.

Таким образом это позволяет отследить только документы ну очень похожие на заданные шаблоны.

А вот например для того чтобы отследить все резюме нужно уже следующе поколении поиска -- поиск документов похожих по содержанию на заданный. Кому интересно советую просмотреть демо-ролие http://www.searchinform.ru/search-download...o-sound-rus.exe там есnm пример отработки поиска похожих для нахождения резюме людей которыt ищут работу. Станет понятно что такой вот результат нельзя сделать через фингепринты.

----------------------------------------------------------------------------

Я честно говоря вообще не понимаю как в свое время вебсенс купила портауторити за 90 млн при убытках в 4 млн и обороте в 6 млн только из за технологии фингепринтов..... Хотя с другой стороны на тот момент наверно это было оправдано -- у остальных производителей систем ИЮ не было даже и этого. Но прогресс то не стоит на месте :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Сергей Ильин
Рустэм -- в точку. Большое тебе спасибо что ты так аргументировано говоришь мягко подводя к возможностям поиска документов похожих по содержанию, которые есть в контуре информационной безопаснсти СофтИнофрм!

Мы тут вроде про плюсы и минусы цифровых отпечатков говорим. Из Вашего комментария совсем не понятно, чем же еще плохи отпечатки (кроме сказанного выше). Что есть другие технологии, в том числе и на базе лингвистики, все хорошо знают, тут ничего нового нет. Хотелось бы больше деталей ;)

Отпечатки же появились недавно и в глазах клиента выглядят выигрышно, имеют целый ряд преимуществ. Иначе эта технология не была бы столь популярной.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo
Мы тут вроде про плюсы и минусы цифровых отпечатков говорим. Из Вашего комментария совсем не понятно, чем же еще плохи отпечатки (кроме сказанного выше). Что есть другие технологии, в том числе и на базе лингвистики, все хорошо знают, тут ничего нового нет. Хотелось бы больше деталей ;)

Деталей каких? Основной минус цифровых отпечаткоа что они находят только очень похожие документы. А это не работает в 90% случаев. Ну например -- у нас стоит задача отследить рассылку резюме сотрлуниками. Цифровые отпечатки здесь ну просто не сработают, так как все резюме разные. Просто поиск по словам и фразам тоже не сработает, так как к примеру по словам "год рождения" найдется ну очень много ненужных документов.

Если будут какие то конкретные вопросы то с радостью проясню.

Отпечатки же появились недавно и в глазах клиента выглядят выигрышно, имеют целый ряд преимуществ. Иначе эта технология не была бы столь популярной.

Это как недавно? Позволю себе несогласиться. В частности :

В декабре 2006 года компания WebSense поглотила PortAuthority, выложив 90 млн долларов/ куплена ради технологии PreciseID которую вебсенс переименовала в фингепринты.

Фактически текст бьется на фрагменты и далее по каждому фрагменту делается нечеткий цифровой слепок, характеризующийся определенным набор элементов каждый из которых представляет собой цифровое выражение. Далее в зависмости от того сколько элементов одинаковы в исходном и искомом фрагменте и определяется степень похожести. Но данная технология позволяет найти только очень незначительно переделанные фрагменты

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
В декабре 2006 года компания WebSense поглотила PortAuthority, выложив 90 млн долларов/ куплена ради технологии PreciseID которую вебсенс переименовала в фингепринты.

Лев, а еще в 80-х в Беркли сделали систему для поиска плагиата (твоя тема какраз) и она была на базе отпечатков ;) Поэтому ни у кого патента нету на DF, а те что есть описывают ну такую узкую формулу, что дает возможность любому сделать свою реализацию (и ее запатентовать, для прикола).

Только, я бы все-таки поспорил с тобой - твой поиск не решает тех же задач, что и призваны решать DF. Просто некоторые зачем-то DF пихают для решения задач в которых нужен твой поиск, это другое дело ;)

DF это очень быстрый и грубый способ отделить классифицированную информацию. Идеально подходит для защиты медиа контента и т.п. Не нужно просто DF пихать во все места и тогда они будут нормально работать ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo
....

Только, я бы все-таки поспорил с тобой - твой поиск не решает тех же задач, что и призваны решать DF. Просто некоторые зачем-то DF пихают для решения задач в которых нужен твой поиск, это другое дело ;)

Если при поиске похожих процент похожести боле 80, то фактически это и есть то что дают цифровые отпечатки. А вот если похожесть меньше то цифровые отпечатки не сработают. То есть цифровые отпечатки в общем случае это подмножество поиска похожих (не с точки зрения алгоритма а с точки зрения функционала который предоставляют)

DF это очень быстрый и грубый способ отделить классифицированную информацию. Идеально подходит для защиты медиа контента и т.п. Не нужно просто DF пихать во все места и тогда они будут нормально работать

Вот тут согласен -- если надо искать документы почти точно соответствующие оригиналу то цифровые отпечатки рациональней (как мы и делаем в проекте плагиатинформ). Но вот к инфобезу цифровые отпечатки мало применимы -- это на мой взгляд больше рекламный ход.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
Но вот к инфобезу цифровые отпечатки мало применимы

Да ну брось. Я же привел пример - медийный контент, огромный (по деньгам) пласт потребителей решения для защитытакого контента. И потом скорость, которые DF дают позволяют практически в реальном времени вести анализ, а поиск это не дает.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo
Да ну брось. Я же привел пример - медийный контент, огромный (по деньгам) пласт потребителей решения для защитытакого контента. И потом скорость, которые DF дают позволяют практически в реальном времени вести анализ, а поиск это не дает.

Если ты про видео-аудио то да смысл имеет. Но только на типовом предприятии для инфобеза не это всеже самое важное. Да и если перегнать туже медиа в другое разрешение или формат фингерпринты не сработают.

У меня всеже четкое убеждение что единственное для чего эти технологии пригодны это отслеживать почти идентичные документы. Но это очень маленький пласт решения проблем

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
типовом предприятии для инфобеза не это всеже самое важное.

не знаю, что такое типовое "предприятие" (типовое предприятие в Индии и в Гондурасе будут очень отличаться), но знаю что защита медиаконтента от утечек это много-миллионный бизнес, растущий быстрее всей не большой ниши DLP ;)

это очень маленький пласт решения проблем

;)) Переубеждать не буду. Ты говоришь о маленьком локальном рынке и специфических потребностях (чаще даже они сами толком незнают чего хотят) игроков этого рынка.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Рустэм Хайретдинов
;)) Ты говоришь о маленьком локальном рынке и специфических потребностях (чаще даже они сами толком незнают чего хотят) игроков этого рынка.

Абсолютно. Реальный "Шизгарик": звонит известная компания и объявляет, что хочет устроить сравнительное тестирование на своей площадке нашего решения, известного поисковика и системы защищенного документооборота. Спрашиваю - цель какая? Систему выбрать! По какому критерию? Что лучше ловит. Бедаааа... Поисковик вообще не ловит, а может нелегитимно (т.е. в суд не понесешь) подтвердить факт утечки. Документооборот ловит то, что в него положено, а об остальном просто не знает. Что из этого хотите-то? Потестировать. На предмет? ... И так пару кругов :)

Существенная часть заказчиков даже не в состоянии сформулировать задачу письменно (ходят по рынку время от времени открытые мегатендеры). Многие хотят "купить что-нибудь от утечек". Поэтому и все разговоры:"процент ложных срабатываний", "ловит-не ловит", "обмануть вот таким хитрым способом" (см. предыдущие посты в этой теме). Поэтому в России каждый UTM, который может в исходящем траффике найти сигнатуру secret и сбросить сессию, говорит, что он борется с утечками.

В Испании заказчик, который уже пользовался другим DLP решением, вообще ни разу не поинтересовался, на какой технологии основан наш продукт и какого по счету она поколения. "Как категоризовать информацию и поддерживать ее в актуальном состоянии", "как прописать маршруты ее движения", "как строятся и импортируются/экспортируются политики", "как тиражируется проект на филиалы", "что делается с инцидентами", "можно ли инциденты нести в суд". Заказчику нужно было решит задачу, поэтому его интересовали потребительские функции.

Если говорить в терминах "пользовательских удобств", то считается, что "отпечатки" для клиента означают простоту и отчужденность от интегратора процесса первоначального наполнения защищаемой информации - указываешь системе конфиденциальные документы, она блокирует сообщения, содержащие куски из них. На этой простоте строятся маркетинговые отстройки тех продуктов, которые, кроме отпечатков, ничего не имеют.

На самом деле, того же эффекта легко добиться и лингвистикой, и антиплагиатом, и с помощью упомянутой выше кнопки "найти похожее", при этом системы будут еще и сами себя апдейтить по ложным срабатываниям обоих родов, и производительность не будет зависеть от количества документов. Только об этом знают гораздо меньше людей.

Недостатки систем, базирующихся на документах-образцах, вовсе не в качестве поиска, а в сложности поддержания актуальности базы отпечатков. Поэтому, как Ашот правильно заметил, они используются в защите статического контента, в том числе и мультимедийного. Попытки защищать с помощью отпечатков данные в СУБД (биллинга, АБС) или код разрабатываемой программы, гораздо менее успешны - отпечаток снимается медленнее, чем обновляется объект.

Autonomy утверждает, что структурированная информация занимает менее 20% от корпоративной информации. Если упираться только в документы или только в отпечатки, приходится сужать задачу до "защиты от похищения прямых цитат из статических, заранее классифицированных документов". Кстати, совсем неплохо для начала - понять, какие документы в компании конфиденциальны и редко меняются, найти, где они находятся, сложить их в правильное место и быть уверенными, что уж их-то никто не унесет. Совсем не простая задача, иногда называемая pre-DLP.

  • Upvote 5

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

  • Сообщения

    • Ego Dekker
      Домашние антивирусы для Windows были обновлены до версии 17.1.9.
    • Ego Dekker
    • ArktiTig
      Арктика - северная полярная область Земли, включающая окраины материков Евразии и Северной Америки, почти весь Северный Ледовитый океан с островами и прилегающие к нему части Атлантического и Тихого океанов. Название её происходит от греческого слова arctos (медведь) и связано со звёздами: Полярная звезда, находящаяся почти точно в зените над Северным полюсом, принадлежит к созвездию Малая Медведица.
    • ArktiTig
      Арктика - северная полярная область Земли, включающая окраины материков Евразии и Северной Америки, почти весь Северный Ледовитый океан с островами и прилегающие к нему части Атлантического и Тихого океанов. Название её происходит от греческого слова arctos (медведь) и связано со звёздами: Полярная звезда, находящаяся почти точно в зените над Северным полюсом, принадлежит к созвездию Малая Медведица.
    • PR55.RP55
      .xml  файлы taskschd.msc Могут быть подписаны  цифровой подписью. Думаю будет нелишним, если uVS будет это фиксировать. т.е. проверять не только подпись целевого файла, но и подпись самого файла\задачи. и писать в ИНфО .  
×