Разбираемся в технологиях предотвращения утечки информации - Защита от утечки информации (DLP) и шифрование - Форумы Anti-Malware.ru Перейти к содержанию
priv8v

Разбираемся в технологиях предотвращения утечки информации

Recommended Posts

priv8v

Если быть достаточно последовательным в определениях, то можно сказать, что информационная безопасность началась именно с появления DLP-систем. До этого все продукты, которые занимались "информационной безопасностью", на самом деле защищали не информацию, а инфраструктуру — места хранения, передачи и обработки данных. Компьютер, приложение или канал, в которых находится, обрабатывается или передается конфиденциальная информация, защищаются этими продуктами точно так же, как и инфраструктура, в которой обращается совершенно безобидная информация. То есть именно с появлением DLP-продуктов информационные системы научились наконец-то отличать конфиденциальную информацию от неконфиденциальной. Возможно, с встраиванием DLP-технологий в информационную инфраструктуру компании смогут сильно сэкономить на защите информации — например, использовать шифрование только в тех случаях, когда хранится или передается конфиденциальная информация, и не шифровать информацию в других случаях.

Однако это дело будущего, а в настоящем данные технологии используются в основном для защиты информации от утечек. Технологии категоризации информации составляют ядро DLP-систем. Каждый производитель считает свои методы детектирования конфиденциальной информации уникальными, защищает их патентами и придумывает для них специальные торговые марки. Ведь остальные, отличные от этих технологий, элементы архитектуры (перехватчики протоколов, парсеры форматов, управление инцидентами и хранилища данных) у большинства производителей идентичны, а у крупных компаний даже интегрированы с другими продуктами безопасности информационной инфраструктуры. В основном для категоризации данных в продуктах по защите корпоративной информации от утечек используются две основных группы технологий — лингвистический (морфологический, семантический) анализ и статистические методы (Digital Fingerprints, Document DNA, антиплагиат). Каждая технология имеет свои сильные и слабые стороны, которые определяют область их применения.

DLP.png

Лингвистический анализ

Использование стоп-слов ("секретно", "конфиденциально" и тому подобных) для блокировки исходящих электронных сообщений в почтовых серверах можно считать прародителем современных DLPсистем. Конечно, от злоумышленников это не защищает — удалить стоп-слово, чаще всего вынесенное в отдельный гриф документа, не составляет труда, при этом смысл текста нисколько не изменится.

Толчок в разработке лингвистических технологий был сделан в начале этого века создателями email-фильтров. Прежде всего, для защиты электронной почты от спама. Это сейчас в антиспамовских технологиях преобладают репутационные методы, а в начале века шла настоящая лингвистическая война между снарядом и броней — спамерами и антиспамерами. Помните простейшие методы для обмана фильтров, базирующихся на стоп-словах? Замена букв на похожие буквы из других кодировок или цифры, транслит, случайным образом расставленные пробелы, подчеркивания или переходы строк в тексте. Антиспамеры довольно быстро научились бороться с такими хитростями, но тогда появился графический спам и прочие хитрые разновидности нежелательной корреспонденции.

Однако использовать антиспамерские технологии в DLP-продуктах без серьезной доработки невозможно. Ведь для борьбы со спамом достаточно делить информационный поток на две категории: спам и не спам. Метод Байеса, который используется при детектировании спама, дает только бинарный результат: "да" или "нет". Для защиты корпоративных данных от утечек этого недостаточно — нельзя просто делить информацию на конфиденциальную и неконфиденциальную. Нужно уметь классифицировать информацию по функциональной принадлежности (финансовая, производственная, технологическая, коммерческая, маркетинговая), а внутри классов — категоризировать ее по уровню доступа (для свободного распространения, для ограниченного доступа, для служебного использования, секретная, совершенно секретная и так далее).

Большинство современных систем лингвистического анализа используют не только контекстный анализ (то есть в каком контексте, в сочетании с какими другими словами используется конкретный термин), но и семантический анализ текста. Эти технологии работают тем эффективнее, чем больше анализируемый фрагмент. На большом фрагменте текста точнее проводится анализ, с большей вероятностью определяется категория и класс документа. При анализе же коротких сообщений (SMS, интернет-пейджеры) ничего лучшего, чем стоп-слова, до сих пор не придумано. Автор столкнулся с такой задачей осенью 2008 года, когда с рабочих мест многих банков через мессенджеры пошли в Сеть тысячи сообщений типа "нас сокращают", "отберут лицензию", "отток вкладчиков", которые нужно было немедленно заблокировать у своих клиентов.

Достоинства технологии

Достоинства лингвистических технологий в том, что они работают напрямую с содержанием документов, то есть им не важно, где и как был создан документ, какой на нем гриф и как называется файл — документы защищаются немедленно. Это важно, например, при обработке черновиков конфиденциальных документов или для защиты входящей документации. Если документы, созданные и использующиеся внутри компании, еще как-то можно специфическим образом именовать, грифовать или метить, то входящие документы могут иметь не принятые в организации грифы и метки. Черновики (если они, конечно, не создаются в системе защищенного документооборота) тоже могут уже содержать конфиденциальную информацию, но еще не содержать необходимых грифов и меток.

Еще одно достоинство лингвистических технологий — их обучаемость. Если ты хоть раз в жизни нажимал в почтовом клиенте кнопку "Не спам", то уже представляешь клиентскую часть системы обучения лингвистического движка. Замечу, что тебе совершенно не нужно быть дипломированным лингвистом и знать, что именно изменится в базе категорий — достаточно указать системе ложное срабатывание, все остальное она сделает сама.

Третьим достоинством лингвистических технологий является их масштабируемость. Скорость обработки информации пропорциональна ее количеству и абсолютно не зависит от количества категорий. До недавнего времени построение иерархической базы категорий (исторически ее называют БКФ — база контентной фильтрации, но это название уже не отражает настоящего смысла) выглядело неким шаманством профессиональных лингвистов, поэтому настройку БКФ можно было смело отнести к недостаткам. Но с выходом в 2010 сразу нескольких продуктов-"автолингвистов" построение первичной базы категорий стало предельно простым — системе указываются места, где хранятся документы определенной категории, и она сама определяет лингвистические признаки этой категории, а при ложных срабатываниях — самостоятельно обучается. Так что теперь к достоинствам лингвистических технологий добавилась простота настройки.

И еще одно достоинство лингвистических технологий, которое хочется отметить в статье — возможность детектировать в информационных потоках категории, не связанные с документами, находящимися внутри компании. Инструмент для контроля содержимого информационных потоков может определять такие категории, как противоправная деятельность (пиратство, распространение запрещенных товаров), использование инфраструктуры компании в собственных целях, нанесение вреда имиджу компании (например, распространение порочащих слухов) и так далее.

Недостатки технологий

Основным недостатком лингвистических технологий является их зависимость от языка. Невозможно использовать лингвистический движок, разработанный для одного языка, в целях анализа другого. Это было особенно заметно при выходе на российский рынок американских производителей — они были не готовы столкнуться с российским словообразованием и наличием шести кодировок. Недостаточно было перевести на русский язык категории и ключевые слова — в английском языке словообразование довольно простое, а падежи выносятся в предлоги, то есть при изменении падежа меняется предлог, а не само слово. Большинство существительных в английском языке становятся глаголами без изменений слова. И так далее. В русском все не так — один корень может породить десятки слов в разных частях речи.

В Германии американских производителей лингвистических технологий встретила другая проблема — так называемые "компаунды", составные слова. В немецком языке принято присоединять определения к главному слову, в результате чего получаются слова, иногда состоящие из десятка корней. В английском языке такого нет, там слово — последовательность букв между двумя пробелами, соответственно английский лингвистический движок оказался неспособен обработать незнакомые длинные слова.

Справедливости ради следует сказать, что сейчас эти проблемы во многом американскими производителями решены. Пришлось довольно сильно переделать (а иногда и писать заново) языковой движок, но большие рынки России и Германии наверняка того стоят. Также сложно обрабатывать лингвистическими технологиями мультиязычные тексты. Однако с двумя языками большинство движков все-таки справляются, обычно это национальный язык + английский — для большинства бизнес-задач этого вполне достаточно. Хотя автору встречались конфиденциальные тексты, содержащие, например, одновременно казахский, русский и английский, но это скорее исключение, чем правило.

Еще одним недостатком лингвистических технологий для контроля всего спектра корпоративной конфиденциальной информации является то, что не вся конфиденциальная информация находится в виде связных текстов. Хотя в базах данных информация и хранится в текстовом виде, и нет никаких проблем извлечь текст из СУБД, полученная информация чаще всего содержит имена собственные — ФИО, адреса, названия компаний, а также цифровую информацию — номера счетов, кредитных карт, их баланс и прочее. Обработка подобных данных с помощью лингвистики много пользы не принесет. То же самое можно сказать о форматах CAD/CAM, то есть чертежах, в которых зачастую содержится интеллектуальная собственность, программных кодах и медийных (видео/аудио) форматах — какие-то тексты из них можно извлечь, но их обработка также неэффективна. Еще года три назад это касалось и отсканированных текстов, но лидирующие производители DLP-систем оперативно добавили оптическое распознавание и справились с этой проблемой.

Но самым большим и наиболее часто критикуемым недостатком лингвистических технологий является все-таки вероятностный подход к категоризации. Если ты когда-нибудь читал письмо с категорией "Probably SPAM", то поймешь, о чем я. Если такое творится со спамом, где всего две категории (спам/не спам), можно себе представить, что будет, когда в систему загрузят несколько десятков категорий и классов конфиденциальности. Хотя обучением системы можно достигнуть 92-95% точности, для большинства пользователей это означает, что каждое десятое или двадцатое перемещение информации будет ошибочно причислено не к тому классу со всеми вытекающими для бизнеса последствиями (утечка или прерывание легитимного процесса).

Обычно не принято относить к недостаткам сложность разработки технологии, но не упомянуть о ней нельзя. Разработка серьезного лингвистического движка с категоризацией текстов более чем по двум категориям — наукоемкий и довольно сложный технологически процесс. Прикладная лингвистика — быстро развивающаяся наука, получившая сильный толчок в развитии с распространением интернет-поиска, но сегодня на рынке присутствуют единицы работоспособных движков категоризации: для русского языка их всего два, а для некоторых языков их просто еще не разработали. Поэтому на DLP-рынке существует лишь пара компаний, которые способны в полной мере категоризировать информацию "на лету". Можно предположить, что когда рынок DLP увеличится до многомиллиардных размеров, на него с легкостью выйдет Google. С собственным лингвистическим движком, оттестированным на триллионах поисковых запросов по тысячам категорий, ему не составит труда сразу отхватить серьезный кусок этого рынка.

Статистические методы

Задача компьютерного поиска значимых цитат (почему именно "значимых" — немного позже) заинтересовала лингвистов еще в 70-х годах прошлого века, если не раньше. Текст разбивался на куски определенного размера, с каждого из которых снимался хеш. Если некоторая последовательность хешей встречалась в двух текстах одновременно, то с большой вероятностью тексты в этих областях совпадали.

Побочным продуктом исследований в этой области является, например, "альтернативная хронология" Анатолия Фоменко, уважаемого ученого, который занимался "корреляциями текстов" и однажды сравнил русские летописи разных исторических периодов. Удивившись, насколько совпадают летописи разных веков (более чем на 60%), в конце 70-х он выдвинул теорию, что наша хронология на несколько веков короче. Поэтому, когда какая-то выходящая на рынок DLP-компания предлагает "революционную технологию поиска цитат", можно с большой вероятностью утверждать, что ничего, кроме новой торговой марки, компания не создала.

Статистические технологии относятся к текстам не как к связной последовательности слов, а как к произвольной последовательности символов, поэтому одинаково хорошо работают с текстами на любых языках. Поскольку любой цифровой объект — хоть картинка, хоть программа — тоже последовательность символов, то те же методы могут применяться для анализа не только текстовой информации, но и любых цифровых объектов. И если совпадают хеши в двух аудиофайлах — наверняка в одном из них содержится цитата из другого, поэтому статистические методы являются эффективными средствами защиты от утечки аудио и видео, активно применяющиеся в музыкальных студиях и кинокомпаниях.

Самое время вернуться к понятию "значимая цитата". Ключевой характеристикой сложного хеша, снимаемого с защищаемого объекта (который в разных продуктах называется то Digital Fingerprint, то Document DNA), является шаг, с которым снимается хеш. Как можно понять из описания, такой "отпечаток" является уникальной характеристикой объекта и при этом имеет свой размер. Это важно, поскольку если снять отпечатки с миллионов документов (а это объем хранилища среднего банка), то для хранения всех отпечатков понадобится достаточное количество дискового пространства. От шага хеша зависит размер такого отпечатка — чем меньше шаг, тем больше отпечаток. Если снимать хеш с шагом в один символ, то размер отпечатка превысит размер самого образца. Если для уменьшения "веса" отпечатка увеличить шаг (например, 10 000 символов), то вместе с этим увеличивается вероятность того, что документ, содержащий цитату из образца длиной в 9 900 символов, будет конфиденциальным, но при этом проскочит незаметно.

С другой стороны, если для увеличения точности детекта брать очень мелкий шаг, несколько символов, то можно увеличить количество ложных срабатываний до неприемлемой величины. В терминах текста это означает, что не стоит снимать хеш с каждой буквы — все слова состоят из букв, и система будет принимать наличие букв в тексте за содержание цитаты из текста-образца. Обычно производители сами рекомендуют некоторый оптимальный шаг снятия хешей, чтобы размер цитаты был достаточный и при этом вес самого отпечатка был небольшой — от 3% (текст) до 15% (сжатое видео). В некоторых продуктах производители позволяют менять размер значимости цитаты, то есть увеличивать или уменьшать шаг хеша.

Достоинства технологии

Как можно понять из описания, для детектирования цитаты нужен объект-образец. И статистические методы могут с хорошей точностью (до 100%) сказать, есть в проверяемом файле значимая цитата из образца или нет. То есть система не берет на себя ответственность за категоризацию документов — такая работа полностью лежит на совести того, кто категоризировал файлы перед снятием отпечатков. Это сильно облегчает защиту информации в случае, если на предприятии в некотором месте (местах) хранятся нечасто изменяющиеся и уже категоризированные файлы. Тогда достаточно с каждого из этих файлов снять отпечаток, и система будет, в соответствии с настройками, блокировать пересылку или копирование файлов, содержащих значимые цитаты из образцов.

Независимость статистических методов от языка текста и нетекстовой информации — тоже неоспоримое преимущество. Они хороши при защите статических цифровых объектов любого типа — картинок, аудио/видео, баз данных. Про защиту динамических объектов я расскажу в разделе "недостатки".

Недостатки технологии

Как и в случае с лингвистикой, недостатки технологии — обратная сторона достоинств. Простота обучения системы (указал системе файл, и он уже защищен) перекладывает на пользователя ответственность за обучение системы. Если вдруг конфиденциальный файл оказался не в том месте либо не был проиндексирован по халатности или злому умыслу, то система его защищать не будет. Соответственно, компании, заботящиеся о защите конфиденциальной информации от утечки, должны предусмотреть процедуру контроля того, как индексируются DLP-системой конфиденциальные файлы.

Еще один недостаток — физический размер отпечатка. Автор неоднократно видел впечатляющие пилотные проекты на отпечатках, когда DLP-система со 100% вероятностью блокирует пересылку документов, содержащих значимые цитаты из трехсот документов-образцов. Однако через год эксплуатации системы в боевом режиме отпечаток каждого исходящего письма сравнивается уже не с тремя сотнями, а с миллионами отпечатков-образцов, что существенно замедляет работу почтовой системы, вызывая задержки в десятки минут.

Как я и обещал выше, опишу свой опыт по защите динамических объектов с помощью статистических методов. Время снятия отпечатка напрямую зависит от размера файла и его формата. Для текстового документа типа этой статьи это занимает доли секунды, для полуторачасового MP4-фильма — десятки секунд. Для редкоизменяемых файлов это не критично, но если объект меняется каждую минуту или даже секунду, то возникает проблема: после каждого изменения объекта с него нужно снять новый отпечаток... Код, над которым работает программист, еще не самая большая сложность, гораздо хуже с базами данных, используемыми в биллинге, АБС или call-центрах. Если время снятия отпечатка больше, чем время неизменности объекта, то задача решения не имеет. Это не такой уж и экзотический случай — например, отпечаток базы данных, хранящей номера телефонов клиентов федерального сотового оператора, снимается несколько дней, а меняется ежесекундно. Поэтому, когда DLP-вендор утверждает, что его продукт может защитить вашу базу данных, мысленно добавляйте слово "квазистатическую".

Единство и борьба противоположностей

Как видно из предыдущего раздела статьи, сила одной технологии проявляется там, где слаба другая. Лингвистике не нужны образцы, она категоризирует данные на лету и может защищать информацию, с которой случайно или умышленно не был снят отпечаток. Отпечаток дает лучшую точность и поэтому предпочтительнее для использования в автоматическом режиме. Лингвистика отлично работает с текстами, отпечатки — с другими форматами хранения информации.

Поэтому большинство компаний-лидеров используют в своих разработках обе технологии, при этом одна из них является основной, а другая — дополнительной. Это связано с тем, что изначально продукты компании использовали только одну технологию, в которой компания продвинулась дальше, а затем, по требованию рынка, была подключена вторая. Так, например, ранее InfoWatch использовал только лицензированную лингвистическую технологию Morph-OLogic, а Websense — технологию PreciseID, относящуюся к категории Digital Fingerprint, но сейчас компании используют оба метода. В идеале использовать две эти технологии нужно не параллельно, а последовательно. Например, отпечатки лучше справятся с определением типа документа — договор это или балансовая ведомость, например. Затем можно подключать уже лингвистическую базу, созданную специально для этой категории. Это сильно экономит вычислительные ресурсы.

За пределами статьи остались еще несколько типов технологий, используемых в DLP-продуктах. К таким относятся, например, анализатор структур, позволяющий находить в объектах формальные структуры (номера кредитных карт, паспортов, ИНН и так далее), которые невозможно детектировать ни с помощью лингвистики, ни с помощью отпечатков. Также не раскрыта тема разного типа меток — от записей в атрибутных полях файла или просто специального наименования файлов до специальных криптоконтейнеров. Последняя технология отживает свое, поскольку большинство производителей предпочитает не изобретать велосипед самостоятельно, а интегрироваться с производителями DRM-систем, такими как Oracle IRM или Microsoft RMS.

DLP-продукты — быстроразвивающаяся отрасль информационной безопасности, у некоторых производителей новые версии выходят очень часто, более одного раза в год. С нетерпением ждем появления новых технологий анализа корпоративного информационного поля для увеличения эффективности защиты конфиденциальной информации.

Автор: Рустэм Хайретдинов

Источник

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
Например, отпечатки лучше справятся с определением типа документа — договор это или балансовая ведомость

ROFL

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Алeксaндр Кoвaлев
Цитата(priv8v @ 04.05.2011, 17:46) *

Например, отпечатки лучше справятся с определением типа документа — договор это или балансовая ведомость

ROFL

Ладно, а разве не так? :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
Ладно, а разве не так? :)

определение _типа_? всегда думал, что это паттерны или на худой конец кейворды. а отпечатки этот какбэ для другого...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Алeксaндр Кoвaлев
Цитата(Алeксaндр Кoвaлев @ 05.05.2011, 14:20) *

Ладно, а разве не так? smile.gif

определение _типа_? всегда думал, что это паттерны или на худой конец кейворды. а отпечатки этот какбэ для другого...

Я думаю, что ты рано напал :D , ведь тут наверняка имелся ввиду не тип файла (Microsoft Word 97, PDF, TXT,..), а категория документа ("договоры с подрядчиками", "список заказчиков", "месячный план",..).

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Сергей Ильин

Нормальная такая статья у Рустэма получилась, особенно на фоне фактического информационного вакуума по данной теме.

Немного только смущает меня формальное отнесение отпечатков к статитическим методам. Если строго по науке - верно, не поспоришь. Но с таким же успехом все DLP-технологии статистические, даже лингвистика, которая учитывает упоминания и частоту набора слов или выражений. Чем не статистика?

А вот например VML от Symantec как-то в такой классификации вообще выпадает. Куда его, тоже в статистику? :)

определение _типа_? всегда думал, что это паттерны или на худой конец кейворды. а отпечатки этот какбэ для другого...

Если под типом документа понимать различные формы в бюрократическом понимании этого слова, то отпечатки должны быть оптимально применимы. Разве нет? Например, карточки учета сотрудников, которые будут похожи на 60%-90%. Разные будут только анкетные данные указанные там. Еще примеры: ПТСы, медецинские справки и т.п.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Hustred

Подскажете, пожалуйста, где еще можно почитать описание алгоритмов, на которых базируются DLP системы, особенно меточный, можно на английском.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Сергей Ильин

Была у нас тема про метки на форуме http://www.anti-malware.ru/forum/index.php?showtopic=6039, возможно пригодится. Но вообще информации мало на эту тему, если что-то найдете, кидайте линки в той теме ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Hustred

Пока ничего, кроме "Профиля защиты Меточная защита", который весьма отдаленно подходит, ничего найти неудалось. Подскажите, пожалуйста, хоть какую-то реализализацию алгоритмов (цифровых отпечатков, например), заранее благодарен.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Сергей Ильин
пожалуйста, хоть какую-то реализализацию алгоритмов (цифровых отпечатков, например), заранее благодарен.

С реализацией просто. Смотрите продукт McAfee Host DLP, он построен на метках

http://www.mcafee.com/us/products/host-dat...ention-dlp.aspx

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Hustred
С реализацией просто. Смотрите продукт McAfee Host DLP, он построен на метках

http://www.mcafee.com/us/products/host-dat...ention-dlp.aspx

Я неправильно выразился, нужна реализация алгоритма (логико-математическая), возможно, если знаете, какой-то опенсорсный проэкт, или какое-то научное исследование, я находил на форуме упоминание о Беркли, но его работы найти неудалось.

Отредактировал Hustred

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Сергей Ильин

Копать стоит в этом направлении

The Digital Watermarking Alliance - http://www.digitalwatermarkingalliance.org/

http://www.digitalwatermarkingalliance.org/app_filter.asp

И вот еще, скорее всего уже видели http://en.wikipedia.org/wiki/Digital_watermarking

Судя по всему подобные по смыслу технологии применяются производителями фото-камер довольно давно. Подозреваю, что и для разметки аудио-видео файлы тоже используются похожие алгоритмы.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

  • Сообщения

    • Ego Dekker
      Домашние антивирусы для Windows были обновлены до версии 19.0.14.
    • PR55.RP55
      Microsoft ускоряет Проводник в Windows 11 с помощью предзагрузки https://www.comss.ru/page.php?id=18618
    • AM_Bot
      Вендор Crosstech Solutions Group выпустил решение для защиты контейнерной инфраструктуры Crosstech Container Security (CTCS). Оно обеспечивает безопасность контейнерных сред: от сканирования образов до контроля запуска рабочих нагрузок и реагирования на инциденты в средах выполнения.      ВведениеФункциональные возможности Crosstech Container Security2.1. Анализ и контроль безопасности образов2.2. Контроль запуска контейнеров2.3. Безопасность в средах выполнения (Runtime Security)2.4. Безопасность окружения2.5. Внешние интеграцииАрхитектура Crosstech Container Security3.1. Основные компоненты Crosstech Container SecurityСистемные требования и лицензирование Crosstech Container Security4.1. Лицензирование4.2. Требования к аппаратной части4.3. Требования к программной части4.4. Процесс установкиСценарии использования5.1. Сценарий №1. Сканирование образов5.2. Сценарий №2. Политики безопасности образов контейнеров5.3. Сценарий №3. Контроль запуска контейнеров5.4. Сценарий №4. Мониторинг безопасности сред выполненияВыводыВведениеРоссийский рынок контейнерных разработок постоянно растёт. В 2024 году затраты на ПО для контейнеризации достигли 3 млрд рублей — это на 66 % больше, чем в 2023. Контейнерные технологии ускоряют процессы разработки, экономят ресурсы компаний, поэтому их всё чаще внедряют в свою работу ИТ-департаменты.Вместе с ростом масштабов контейнеризации увеличивается и поверхность атак: уязвимости в образах, ошибки конфигураций, несанкционированные действия внутри контейнеров. Crosstech Container Security помогает компаниям выстраивать комплексную систему защиты контейнерной инфраструктуры.Функциональные возможности Crosstech Container SecurityCrosstech Container Security объединяет функции анализа, мониторинга и управления безопасностью контейнерных сред. Решение охватывает весь жизненный цикл контейнера — от момента его создания до удаления. Продукт помогает DevSecOps-командам выявлять уязвимости, проверять конфигурации, контролировать сетевую активность и реагировать на инциденты в режиме реального времени.Анализ и контроль безопасности образовCrosstech Container Security интегрируется с реестрами хранения образов и позволяет проводить их сканирование как в ручном режиме, так и по расписанию. В результате анализа система обнаруживает дефекты в образах: уязвимости, неправильные конфигурации, секреты, а также фиксирует используемые в образах OSS-лицензии для пакетов и библиотек. По каждому найденному дефекту предоставляется детальная информация.CTCS поддерживает экспорт SBOM в форматах SPDX и CycloneDx, что упрощает аудит и обмен данными с другими решениями. Интерфейс продукта предоставляет визуализацию образов с маппингом (сопоставлением данных) на дефекты безопасности. CTCS также осуществляет дискаверинг (обнаружение) образов, располагающихся в защищаемых кластерах и на standalone-хостах.Для автоматизации контроля доступны настраиваемые политики безопасности образов, разделяемые по критериям:наличие уязвимостей в образах контейнеров выше заданной оценки критичности;наличие уязвимостей в образах контейнеров согласно заданным идентификаторам;обнаружение root в Dockerfile;возможность указания перечня образов, на которые будет распространяться созданная политика безопасности образов.При нарушении хотя бы одного из критериев политики администратор получает уведомление в интерфейсе CTCS и может оперативно принять меры: заблокировать образ, исключить его из деплоя или добавить в список исключений с указанием причины. Такой подход обеспечивает прозрачность процессов и повышает уровень доверия к среде разработки и эксплуатации.Контроль запуска контейнеровРешение обеспечивает контроль запуска контейнеров как в средах Kubernetes, так и на отдельных standalone-хостах в соответствии с заданными политиками безопасности. Это позволяет предотвращать запуск рабочих нагрузок, не соответствующих требованиям безопасности компании, ещё на этапе их инициализации.В зависимости от настроек администратор может выбрать режим реагирования: блокирование или оповещение о нарушении политики безопасности. Информация обо всех срабатываниях отображается в интерфейсе системы, обеспечивая прозрачность и возможность оперативного реагирования.Политики безопасности включают следующие критерии:попытка запуска контейнеров на базе образов, не соответствующих политикам безопасности;попытка запуска контейнеров из-под пользователя root;попытка запуска контейнеров с повышенными привилегиями ядра Linux;контроль запуска контейнеров на базе образов, не прошедших сканирование CTCS.Дополнительно решение поддерживает интеграцию с OPA Gatekeeper и имеет возможность создания и импорта политик через интерфейс CTCS.Безопасность в средах выполнения (Runtime Security)CTCS использует возможности инструмента Tetragon для создания и применения кастомных политик безопасности, позволяющих контролировать сетевые взаимодействия внутри контейнеров. Администраторы могут выбрать набор кластеров для распространения политик, что обеспечивает гибкость при внедрении требований безопасности.Вся информация о срабатываниях политик фиксируется в интерфейсе CTCS, предоставляя специалистам по информационной безопасности прозрачную картину активности в средах выполнения и возможность оперативного реагирования на инциденты.Безопасность окруженияРешение выполняет сканирование кластеров на соответствие стандартам конфигурирования CIS Kubernetes Benchmarks. Аналогично система проводит проверку standalone-хостов на соответствие CIS Docker Benchmarks. Дополнительно CTCS поддерживает сканирование конфигурационных файлов, расположенных в директориях нод кластеров, выполняя роль сканера на основе IaC (Infrastructure as Code, управление инфраструктурой через использование кода).Внешние интеграцииРешение поддерживает интеграцию с реестрами хранения образов, что обеспечивает доступ к актуальным данным для анализа и контроля безопасности контейнеров. Также CTCS поддерживает передачу журналов событий в системы сбора по протоколу Syslog для их централизованного хранения и обработки.Доступна интеграция с системой идентификации, управления доступом Keycloak с поддержкой OAuth и доменными службами каталогов. Это позволяет пользователям авторизовываться в интерфейсе системы через доменные учётные записи. Рисунок 1. Планы по развитию Crosstech Container Security Архитектура Crosstech Container SecurityАрхитектура CTCS реализована в формате однонаправленных соединений со стороны ядра системы в сторону агентов защиты (протокол TCP/IP), располагающихся в защищаемых кластерах. Такой подход позволяет использовать инстанс ядра в единственном экземпляре для инфраструктур, сегментированных по уровням доверия. Рисунок 2. Логическая архитектура Crosstech Container Security Основные компоненты Crosstech Container SecurityCTCS состоит из 3 основных компонентов:CTCS Core — группа микросервисов, отвечающая за управление системой: хранение данных, настроек, создание политик безопасности, бизнес-логика продукта, а также взаимодействие со смежными системами.CTCS Agent-Manager: модуль агент-менеджера реализован в формате оператора Kubernetes с целью контроля за установкой и изменениями кастомных ресурсов (custom resource definition, CRD), а также управления и передачи информации агент-воркерам, устанавливаемым на каждую защищаемую ноду в формате DaemonSet.CTCS Scanner — модуль, сканирующий образы контейнеров на уязвимости, неправильные конфигурации, конфиденциальные данные, информацию по OSS-лицензиям для пакетов и библиотек из состава образа, а также сканирующий кластеры на соответствие стандартам конфигурирования.Системные требования и лицензирование Crosstech Container SecurityПеред выбором модели лицензирования заказчикам рекомендуется оценить масштаб защищаемой инфраструктуры и нагрузку на кластеры. Crosstech Container Security предусматривает гибкий подход: ядро и агенты могут разворачиваться в разных сегментах сети, включая тестовые и продуктивные среды. Такой принцип позволяет оптимально распределять ресурсы и лицензии, избегая избыточных затрат.ЛицензированиеCTCS лицензируется по количеству защищаемых нод, на которые распространяются агенты защиты.В продукте реализовано гибкое лицензирование, которое позволяет заказчикам самостоятельно выбирать перечень защищаемых объектов. При достижении лимита по количеству лицензий, предусмотренных договором, администратор может отключить часть текущих объектов защиты и переназначить лицензии на новые кластеры и ноды. Рисунок 3. Включение/выключение агентов защиты Рисунок 4. Лицензии CTCS На странице лицензирования доступна подробная информация о параметрах действующей лицензии. Пользователь видит:количество оставшихся дней действия лицензии;количество нод, предусмотренных лицензией;актуальные данные о числе используемых нод в рамках лицензии;сведения о типе лицензии;информация о поставщике;информация о владельце лицензии.Рисунок 5. Страница «Лицензирование» Требования к аппаратной частиКластер, на котором производится установка CTCS, должен соответствовать минимальным характеристикам, приведённым ниже. Для определения значений millicpu (единицы времени процессора, эквивалентной тысячной части работы, которую может выполнить одно ядро CPU) рекомендуется воспользоваться документацией Kubernetes.Кластер, на который будет установлен helm-чарт ядра (без учёта сканера) должен иметь характеристики не ниже 8190 millicpu, 7410 MiB RAM.Для каждого экземпляра сканера: 3 CPU, 6 GB RAM, при добавлении дополнительных экземпляров значения увеличиваются пропорционально.В случае использования большего количества реплик значения пропорционально умножаются на их число. По умолчанию в чарте допускается до 6 реплик, что требует 18 CPU, 36 GB RAM.Каждый кластер для развёртывания чарт-агента должен иметь 2 CPU, 8 GB RAM.Необходимый минимум для каждой используемой СУБД PostgreSQL: 4 CPU, 8 GB RAM, 100 GB.Приведённые требования указаны для усреднённой конфигурации и могут быть изменены в зависимости от количества одновременных сканирований образов, генерируемых событий, деплоев, пространств имён (namespaces) и подов.Требования к программной частиДля корректной интеграции и работы приложение CTCS должно быть развёрнуто в кластере Kubernetes. При настройке системы в конфигурационном файле helm-чарта должны быть настроены необходимые параметры.Поддерживаемые контейнерные среды CRI (container runtime interface): containerd и docker.В момент выполнения инструкции на хосте администратора должны быть установлены следующие утилиты для выполнения установки:tar;helm;kubectl.Необходимые сервисы в инфраструктуре:PostgreSQL: рекомендуется размещать базу данных для хранения логов на отдельном инстансе от основной БД, чтобы избежать падения производительности основных операций при большом объёме логируемых событий;Keycloak (опционально, имеется возможность поставки в составе дистрибутива);Vault (опционально, имеется возможность использования стандартного объекта Kubernetes Secret).Требования к операционной системе и ядру:рекомендуется использовать ОС с версией ядра 5.4 или выше для обеспечения поддержки Tetragon;в ядре должна быть включена функция BTF;должны быть активированы модули eBPF и cgroup, а также корректным образом настроены или отключены модули безопасности Linux (LSM), контролирующие запуск eBPF-программ (в соответствии с официальной документацией Tetragon).Требования к версиям Kubernetes:центральная управляющая часть кластера – не ниже версии 1.23;дочерние кластеры – версия 1.23 или выше.Дополнительные требования:В кластере Kubernetes должен быть установлен, подключён и настроен storage class, в котором будет минимум 10 GB свободного места.В master-кластер должен быть установлен External Secrets (опционально).В дочерние кластеры должен быть установлен External Secrets (опционально).Во всех кластерах, где развёртывается ядро и агенты CTCS, должен быть установлен ingress-контроллер.Совокупность этих требований обеспечивает стабильную работу системы и корректное взаимодействие всех модулей CTCS. При соблюдении указанных параметров производительность решения остаётся предсказуемой даже при высокой интенсивности сканирований и большом количестве событий безопасности. Такой подход гарантирует надёжность, масштабируемость и устойчивость контейнерной инфраструктуры.Процесс установкиДля развёртывания CTCS вендор предоставляет архив, содержащий helm-чарты и образы системных контейнеров. При необходимости может быть предоставлена учётная запись для выгрузки дистрибутивов из репозиториев вендора напрямую.Сценарии использованияCrosstech Container Security закрывает ключевые задачи обеспечения безопасности контейнерных платформ — от анализа уязвимостей до защиты на уровне среды выполнения. Решение органично интегрируется в процессы DevSecOps и помогает компаниям повысить устойчивость инфраструктуры к современным киберугрозам без потери скорости разработки.Сценарий №1. Сканирование образовCTCS позволяет выполнять сканирование образов контейнеров, хранящихся как в интегрированных реестрах образов, так и локально в защищаемых кластерах. Рисунок 6. Подключённые реестры После интеграции с реестрами образов на вкладке «Образы» – «Реестры» отображается подключённый реестр и информация о хранящихся в нём образах. Реализовано в формате иерархии:Реестры.Название образа и количество его версий (тегов).Название образа и его версии.Карточка конкретного образа.Рисунок 7. Образ и список его версий Рисунок 8. Карточка образа На каждом уровне иерархии есть возможность запуска сканирования по требованию с выбором типа дефектов, которые будут учитываться в процессе сканирования. Дополнительно предоставляется общая информация об образе, данные о его соответствии установленным политикам, сведения о слоях образов с маппингом на обнаруженные дефекты. Рисунок 9. Слои образа На странице интеграций с реестрами в настройках доступно выставление расписания для проведения автоматизированного сканирования. Рисунок 10. Сканирование по расписанию Для работы с образами, обнаруженными локально в защищаемых кластерах, доступна отдельная вкладка «Образы» – «Локальные образы». Рисунок 11. Таблица локальных образов При запуске процесса сканирования доступен выбор ноды, на которой он будет проводиться. Если обнаруженный образ находится в интегрированном реестре, сканирование будет приоритетно выполняться на стороне ядра системы в рамках интеграции с реестром. Рисунок 12. Выбор нода для проведения сканирования Сценарий №2. Политики безопасности образов контейнеровВ рамках Crosstech Container Security реализовано создание политик безопасности для образов контейнеров. После их настройки система автоматически проверяет все известные образы на соответствие заданным критериям. По результатам проверки на карточке каждого образа отображается информация о соответствии или несоответствии политикам безопасности (Рисунок 7). Если образ нарушает несколько политик безопасности одновременно, в карточке отображается, какие именно политики безопасности были нарушены. Рисунок 13. Создание политики безопасности образов Сценарий №3. Контроль запуска контейнеровВ CTCS доступна интеграция с OPA Gatekeeper, обеспечивающая валидацию контейнерных деплоев и реагирование в соответствии с заданными политиками безопасности.При настройке политик безопасности доступен выбор режима реагирования — оповещение либо блокировка — а также определение перечня критериев безопасности, по которым будет осуществляться контроль. Рисунок 14. Таблица политик валидации и контроля запусков Политики безопасности могут создаваться по выделенным критериям (Рисунок 13) или импортироваться в виде кастомных политик (Рисунок 14). Рисунок 15. Создание политики валидации и контроля запусков Рисунок 16. Импорт кастомных политик безопасности Результаты срабатывания политик доступны в интерфейсе системы, что позволяет оперативно анализировать инциденты и корректировать настройки безопасности. Рисунок 17. Срабатывание политик валидации и контроля запусков Сценарий №4. Мониторинг безопасности сред выполненияВ текущей версии реализован мониторинг безопасности сред выполнения на базе Tetragon, что позволяет контролировать эксплуатацию рабочих нагрузок.В CTCS доступна форма для создания или импорта готовых политик безопасности с возможностью выбора области применения. Рисунок 18. Создание политики среды выполнения При срабатывании политик система отображает перечень событий в формате таблицы. Для каждого события можно перейти в режим детального просмотра, где отображается его идентификатор, дата и время создания, короткое описание и содержание в формате json. Рисунок 19. Событие срабатывания политики среды выполнения ВыводыАнализ решения Crosstech Container Security показал, что в версии 3.0.0 продукт предоставляет широкие функциональные возможности для защиты контейнерной инфраструктуры: от обеспечения безопасности образов контейнеров до контроля запуска и реагирования на нелегитимные процессы в средах выполнения в соответствии с политиками безопасности. CTCS также предоставляет инструменты для проведения сканирований защищаемых кластеров на соответствие стандартам конфигурирования, что повышает уровень безопасности контейнерной инфраструктуры.Достоинства:Архитектура. Благодаря однонаправленным соединениям со стороны ядра системы в сторону агентов защиты обеспечивается соответствие требованиям заказчиков, которые используют «Zero Trust»-модель на уровне сегментов инфраструктуры.Широкая площадь покрытия. CTCS обеспечивает контроль запуска контейнеров не только в рамках оркестратора Kubernetes, но и на отдельных хостах контейнеризации за счёт использования standalone-агентов.Гибкие возможности при работе с API. Весь функционал из веб-интерфейса CTCS также доступен для вызова через API, что позволяет специалистам заказчика решать нетривиальные задачи в рамках своей рабочей деятельности и интегрировать продукт в существующие процессы.Удобство при работе со сканированием образов. Иерархический подход обеспечивает гибкость при выборе области сканирования и повышает прозрачность анализа.Недостатки:Отсутствие возможности встраивания в процесс сборки (CI/CD) (планируется к реализации в первом квартале 2026 года).Отсутствие данных по ресурсам Kubernetes (Workloads, RBAC, Custom Resources, Feature Gates): планируется в 4-м квартале 2025 – 1-м квартале 2026).Отсутствие настройки гибкого разграничения прав доступа пользователей в интерфейс системы (реализация запланирована на первый квартал 2026).Отсутствие отчётности по результатам работы с системой (планируется в первом квартале 2026).Реклама, 18+. ООО «Кросстех Солюшнс Групп» ИНН 7722687219ERID: 2VfnxvVGwXfЧитать далее
    • demkd
    • PR55.RP55
      И ещё это: https://www.comss.ru/page.php?id=18330 Это и на работе Образов с Live CD может сказаться ?
×