DLP на базе цифровых отпечатков

Март 10, 2009

Сейчас многие вендоры активно используют в своих продуктах технологии цифровых отпечатков (Digital Fingerprints) и продвигают их на рынке. Из представленных в России вендоров решения на базе отпечатков имеются у Websense и Symantec.

Часто отпечатки преподносятся как венец развития DLP и панацея от утечек. Так давай разберемся в сильных и слабых сторонах этой технологии.

Попрошу высказываться ЗА и ПРОТИВ

Март 10, 2009

По этому поводу кое-что уже высказывал Михаил Прибочий, еще в 2007 здесь.

Март 10, 2009

решения на базе отпечатков...
разберемся в сильных и слабых сторонах этой технологии.

На ноутбуках есть уже у многих вендоров.

Пальцепечаток не сработает, если палец загрязнился краской, химреагентом, кремом, получил травму или был утерян.

Март 11, 2009

Плюсы:

1. Возможность контроля попыток передачи информации с установленным процентом смысловой составляющей от исходной.

2. Возможность контроля попыток передачи информации в любом формате отличном от исходного.

3. Возможность контроля попыток передачи информации с измененными буквами, словами, разбавленной другой информацией, перемешанной и др.

4. Возможность контроля попыток передачи информации, созданной на базе защищаемой совокупности.

5. Возможность контроля попыток передачи информации из БД с установлеными сочетаниями столбцов.

Минусы:

1. Информация становится защищаемой только после того, как на ней отработает механизм снятия цифровых отпечатков.

Март 11, 2009

К плюсам еще бы отнес минимальные затраты при внедрении DLP продукта на базе цифровых отпечатков, так как нужно всего лишь "скорпить" ему конфиденциальные файлы и пожинать плоды. С той же лингвистикой при внедрении придется повозиться побольше.

К минусам отнес бы еще снижение эффективности работы со временем. Через какое-то время секретными могут стать большинство файлов, так как информация имеет свойство постоянно мигрировать. Поэтому при обходе конечных точек поисковый робот будет каждый раз снимать все новые и новые отпечатки, увеличивая их общую базу данных.

Кроме этого, факт защиты только известной информации делает технологию цифровых отпечатков практически бессильной против умышленных утечек.

Март 11, 2009

Сергей, хорошие дополнения

Кроме этого, факт защиты только известной информации делает технологию цифровых отпечатков практически бессильной против умышленных утечек.

К сожалению, против умышленных четко спланированных утечек ни одна технология DLP практически не в силах помочь

Март 11, 2009

Еще к бесспорным плюсам отпечатков можно отнести то, что клиент знает, где хранятся его конфиденциальные данные. А дальше в умелых руках знание превращается в уменьшение рисков. Можно систематизировать хранение данных, зашифровать их или дать по рукам нерадивым пользователям.

Правда эта сильная сторона теряет важность, если в компании закрыт периметр, а все мобильные носители принудительно шифруются.

Март 11, 2009

Как поведет себя подобная система если в ней есть отпечаток строки "совершенно секретно", а на вход ей попадет строка "с1о2в3е4р5ш6е7н8н9о с9е8к7р6е5т4н3о" ?

Март 11, 2009

Как поведет себя подобная система если в ней есть отпечаток строки "совершенно секретно", а на вход ей попадет строка "с1о2в3е4р5ш6е7н8н9о с9е8к7р6е5т4н3о" ?

Очень просто - символов было 18, после разбавления текстом (цифрами) стало 34, то есть исходный текст занимает примерно 52 процента. Минимальный уровень детекта по цифровым отпечаткам - примерно 10 процентов, поэтому этот документ будет остановлен по совпадению примерно 50 процентов от исходного

Март 11, 2009

Возможность контроля попыток передачи информации с установленным процентом смысловой составляющей от исходной.

Я бы здесь попридирался к "смысловой составляющей" .. весь смысл текста может, например, содержаться в 1% от его буквенно-цифрового наполнения или, например, одинаковый смысл могут иметь два совершенно различных текста - просто написанных на разных языках. Здесь нужна более точная формулировка.

Март 11, 2009

Очень просто - символов было 18, после разбавления текстом (цифрами) стало 34, то есть исходный текст занимает примерно 52 процента. Минимальный уровень детекта по цифровым отпечаткам - примерно 10 процентов, поэтому этот документ будет остановлен по совпадению примерно 50 процентов от исходного

т.е. если буквы сдвинуть (аналог шифра цезаря), то фраза распознана не будет ?

а можно тормознуть документ, на том основании, что содержащийся в нем текст не является текстом ? т.е наборы букв не соответствуют словам языка ?

Март 11, 2009

а можно тормознуть документ, на том основании, что содержащийся в нем текст не является текстом ? т.е наборы букв не соответствуют словам языка ?

Это уже чистая лингвистика пошла

Март 11, 2009

т.е. если буквы сдвинуть (аналог шифра цезаря), то фраза распознана не будет ?
а можно тормознуть документ, на том основании, что содержащийся в нем текст не является текстом ? т.е наборы букв не соответствуют словам языка ?

а можно поподробнее по обоим вариантам?

Это уже чистая лингвистика пошла

В общем да, но это вполне можно описать с помощью RegEx

Март 11, 2009

т.е наборы букв не соответствуют словам языка

Правильнее сказать: не соответствуют словарным нормам языка.

Для статистики - этот топик 7000-й, юбилейный.

Поздравляю создателей! Растёшь, АМ!

Март 12, 2009

Это уже чистая лингвистика пошла

А какая разница лингвистика или нет ? Мы же говорим о системе защиты, а раз так, то она должна уметь защищаться от попыток ее обхода.

Вот я и пытаюсь понять - на какого инсайдера эта технология расчитана.

Если честно, складывается впечатление, что многие DLP продукты создаются без анализа условий применения. Анализируется потребность рынка (читай мода), которую достаточно легко создать искусственно. И как результат даже специалисты сравнивают списки функций, а не применимость при решении практических задач.

а можно поподробнее по обоим вариантам?

сдвиг текста на 1

с->т

о->п

в->г

е->ё

р->с

ш->щ

е->ё

н->о

о->п

вместо "совершенно" будет "тпгёсщёооп", которое в принципе можно задержать так как оно не является словом русского языка

Март 12, 2009

andrey golubev, технология отпечатком по своей сути не может быть эффективной против умешленных утечек. Можно придумать тысячу способов на коленке ее обойти, даже париться не нужно особо. Поэтому можно сворачивать дискуссию на тему простейшего кодирования контента, понятно, что это прокатит. Точно также прокатит и текст на "хакерском языке" и многое другое.

Технология цифровых отпечатков в DLP нацелена на предотвращение случайных утечек, а таких очень большая часть.

Для статистики - этот топик 7000-й, юбилейный.

Да, я тоже заметил, спасибо!

Март 12, 2009

на предотвращение случайных утечек, а таких очень большая часть.

А есть ли список всех осознанных DLP-разработчиками случайных утечек?

Чтобы понять насколько он параноидный и насколько продуманный...

Март 12, 2009

А есть ли список всех осознанных DLP-разработчиками случайных утечек?

Список может получить очень большой. Все они попадают под емкое определение "халатность". Перечислю основные варианты случайных утечек:

1. Потери ноутбуков.

2. Потери мобильных носителей (флешки, диски и т.п.)

3. Потери архивных носителей.

4. Случайная публикация данных в открытом доступе (например, на вебсайте)

5. Случайная отправка по e-mail неверному адресату.

6. Треп по аське на конфиденциальные рабочие темы.

Март 12, 2009

Список может получиться очень большой.

Я бы от себя добавил ещё кое-что относящееся к той или иной халатности:

7. Неквалифицированное удаление конфиденциальной информации с носителей.

8. Передача ПК (или HDD и др. носителей) на ремонт постороннему (недоверенному) лицу.

9. Малообученность работников средствам хранения, шифрования и удаления информации.

10. Взятие работы надом с одним из предыдущих исходов - см. мои предыдущие пункты 7,8,9.

11. Навешивание на одного человека различных должностных обязанностей.

12. Пользование одним компьютером разных должностных лиц.

13. Распространённая незащищённость рабочего компьютера от внешних угроз.

14. Распространённая доступность секретарского компьютера и др. офисной техники.

Март 13, 2009

andrey golubev, технология отпечатком по своей сути не может быть эффективной против умешленных утечек. Можно придумать тысячу способов на коленке ее обойти, даже париться не нужно особо. Поэтому можно сворачивать дискуссию на тему простейшего кодирования контента, понятно, что это прокатит. Точно также прокатит и текст на "хакерском языке" и многое другое.

Тогда в качестве минуса технологии цифровых отпечатков (чтобы от темы топика не уходить) - необходимость использования еще и средства защиты от кражи. А продукты реализующие эту технологию использовать не как средство защиты, а как средство автоматической классификации информации.

Март 13, 2009

Тогда в качестве минуса технологии цифровых отпечатков (чтобы от темы топика не уходить) - необходимость использования еще и средства защиты от кражи.

Имеется ввиду контроль портов или что-то еще? Если да, то это есть во всех приличных DLP, технология цифровых отпечатков - это другое, тут именно защита от утечек по легитимным каналам по сети.

Март 13, 2009

Имеется ввиду контроль портов или что-то еще? Если да, то это есть во всех приличных DLP, технология цифровых отпечатков - это другое, тут именно защита от утечек по легитимным каналам по сети.

имел в виду защиту от кражи "по легитимным каналам по сети"

для кражи информации ведь необязательно использовать исключительно подключаемые устройства. почта или интернет тоже вполне подходящий канал. и средства защиты портов этот канал не закрывают (порты имеются в виду не сетевые, а хардварные - com, usb и т.п.)

Март 17, 2009

Очень просто - символов было 18, после разбавления текстом (цифрами) стало 34, то есть исходный текст занимает примерно 52 процента. Минимальный уровень детекта по цифровым отпечаткам - примерно 10 процентов, поэтому этот документ будет остановлен по совпадению примерно 50 процентов от исходного

Кирилл, меня очень заинтересовал Ваш ответ.

1. Разве подпись документа не основана на предварительном выделении слов (применении к ним стеминга, морфологии), а потом уже вычислении некоторой хеш-функции по словам или их последовательностям? Если мое предположение об этом верно, то не будет найдено ничего.

2. Если исходить из Вашего предположения, что хеш вычисляется для каждой буквы, то какой смысл в этом отпечатке, если его размер равен или больше исходного документа? Тогда уж проще разбить исходный документ на слова и искать их в «подозрительном». Такой подход аналогичен поиску по словарю или в более хитром варианте методу Байеса.

3. Если же применяется алгоритм типа супершингирования, то поиск точно не сработает, т.к. последовательность символов изменилась.

Расскажите подробнее, каким образом будет распознан указанный отпечаток, потому что мне представляется сомнительным, что он будет распознан с помощью технологии цифровых отпечатков.

Буду благодарен Вам за ссылки на статьи и исследования по этой теме.

Плюсы:
1. Возможность контроля попыток передачи информации с установленным процентом смысловой составляющей от исходной.

2. Возможность контроля попыток передачи информации в любом формате отличном от исходного.

3. Возможность контроля попыток передачи информации с измененными буквами, словами, разбавленной другой информацией, перемешанной и др.

4. Возможность контроля попыток передачи информации, созданной на базе защищаемой совокупности.

5. Возможность контроля попыток передачи информации из БД с установлеными сочетаниями столбцов.

По п.2: Так ли уж в ”любой”? А если текст сконвертировать в bmp-файл?

по п.3: Расскажите, на какой основе работает это «с измененными буквами» или, что Вы имели в виду?

Март 17, 2009

Коллеги, хотел бы внести свежую струю.

Отпечатки - технология, котору нужно уметь правильно использовать. Поскольку производители решений не в состоянии взять на себя роль пользователя, многое зависит от пользователя.

К недостаткам отпечатков я бы отнес, прежде всего, - неготовность компаний-заказчиков их использовать. Отпечаткам, как и меткам, нужны образцы - документы, которые компанией-пользователем признаны конфиденциальными. Таких документов у большинства компаний просто нет. Максимум что есть у заказчика - перечень категорий информации, которая имеет ограниченное хождение.

Пилоты по внедрению решений на отпечатках проходят "на ура" - отличный уровень детекта, хорошая производительность, простота добавления. Но поддерживать такие решения компании не в состоянии - по оценкам самих компаний, около 10% документов меняются ежедневно. В компании нет человека, который мог бы оценить конфиденциальность любого нового и входящего документа, поэтому нужно вводить ответственного по категориям (производство, финансы, R&D и т.д.). Большинство компаний возлагают ответственность за метку (отпечаток) документа на автора, а это против инсайдеров не помогает.

Получается, что вслед за внедрением простого решения, для его эффективного использования приходится внедрять управление жизненным циклом документов, а к этому, по меньшей мере в России, никто пока не готов. Если смотреть на пользователей решений на отпечатках в мире, то, прежде всего, это финансовые компании, здравохранение и страховые компании, т.е. компании с налаженным оборотом информации, где решение о конфиденциальности того или иного документа принимается по форме документа, а не по содержанию. Например, если это заполненная форма заявления на получения кредита - это конфиденциально, независимо от того, что-то осмысленное написано в форме или вместо данных стоят крестики.

В России до этого пока не дошли, поэтому начинают внедрять отпечатки as is, не предоставив никаких форм. Это все равно, что внедрять ERP, не наладив бухучет - работать будет, но совсем не так, как ожидалось.

Область, где отпечатки работают на "отлично" - статические архивы информации - электронные библиотеки, хранилища музыкального и видео-контента - все звукозаписывающие компании и голивудские студии защищают свои хранилища отпечатками. Если информация не меняется - защита на высоте. Не помню кто на конференции DLP-Expert сравнивал отпечатки с сигнатурами известных вирусов - это только один из способов детектирования информации. По аналогии - надо бы еще использовать и поведенческие алгоритмы, и репутационные кореляции и т.д.

Март 30, 2009

Американские ученые предложили новый способ идентификации

"Казалось бы при чем тут Лужков" (с) Доренко

digital fingerprints и fingerprints (а далее по цепочке ассоциаций - "биометрия") это не одно и тоже

DLP на базе цифровых отпечатков

Recommended Posts

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Александр Шабанов 120

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Андрей-001 1099

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Кирилл Керценбаум 671

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Кирилл Керценбаум 671

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

andrey golubev 15

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Кирилл Керценбаум 671

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

nones 5

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

andrey golubev 15

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Кирилл Керценбаум 671

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Андрей-001 1099

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

andrey golubev 15

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Андрей-001 1099

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Андрей-001 1099

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

andrey golubev 15

Поделиться сообщением