Cyber Threat Hunting и Data Science как основа информационной безопасности

...

Что такое Cyber Threat Hunting и Data Science? Какими могут быть сценарии совместного применения этих технологий в качестве мощного инструмента по обеспечению информационной безопасности? В поиске ответов мы рассмотрели техники Cyber Threat Hunting в предметном поле Data Science, в том числе их градацию в соответствии с различными этапами зрелости.

Введение
Что такое Cyber Threat Hunting & Data Science?
Техники Cyber Threat Hunting

3.1. Базовый поиск
3.2. Статистический анализ
3.3. Техники визуализации
3.4. Простые агрегации
3.5. Машинное обучение
3.6. Байесовские методы

Выводы

Введение

Все чаще в сфере информационных технологий мы слышим о значимости науки о данных и об успешности применения технологий машинного обучения. Динамика последних событий в мире информационной безопасности свидетельствует о серьезной трансформации методов и технологий совершения атак со стороны злоумышленников. Многие компании сталкиваются с атаками, при которых традиционные средства защиты информации оказываются не просто малоэффективными, но и бесполезными.

В связи с этим, возникает вопрос — как защититься компаниям в условиях, когда угрозы невозможно формализовать и описать сигнатурой? В этой статье будет рассмотрен перспективный подход к решению этой задачи, основанный на симбиозе актуальных техник «хантинга» (Cyber Threat Hunting) и инструментов науки о данных — Data Science.

Что такое Cyber Threat Hunting & Data Science?

Cyber Threat Hunting (здесь и далее — также хантинг) — это процесс проактивного и итеративного поиска и обнаружения продвинутых угроз, которые невозможно обнаружить традиционными средствами защиты. Данный процесс распадается на ряд общепризнанных техник хантинга. На Рисунке 1 приведены используемые методы в процессе Cyber Threat Hunting в зависимости от стадии зрелости.

Data Science – наука о данных, отвечающая за обработку и извлечение полезной информации из массивов структурированных или неструктурированных данных. Термин Data Science очерчивает достаточно объемную предметную область, которая требует конкретизации в каждом отдельном случае. Так, если говорить о симбиозе Cyber Threat Hunting и Data Science, определение последней как науки о данных, несколько меняется. Термин «Data Science» в контексте Cyber Threat Hunting раскрывается как набор техник и приемов, с помощью которых осуществляется хантинг и которые несут в себе специфические принципы работы с данными.

Рисунок 1. Модель зрелости применения техник Cyber Threat Hunting

Все представленные техники Cyber Threat Hunting так или иначе относятся к предметному полю Data Science. Далее мы рассмотрим каждую из техник.

Техники Cyber Threat Hunting

Базовый поиск

Базовый поиск – это наиболее часто используемая техника в Cyber Threat Hunting. Этот метод подразумевает использование специализированных запросов, которые возвращают некоторые результаты поиска. Из-за сложности формализации задачи по поиску неизвестной угрозы не всегда возможно однозначно указать, что ищет аналитик, когда начинает поиск. По этой причине область поиска не должна быть ни слишком широкой, охватывающей множество факторов и выдающей обилие результатов, ни слишком узкой, так как появляется высокая вероятность упустить потенциальные угрозы, которые не были включены в поиск.

Статистический анализ

Статистический анализ – это техника, основанная на математической модели статистических отклонений. Такая модель применима для построения типовой пользовательской / сетевой активности с последующим обнаружением аномальных событий. Основные этапы применения данной техники указаны на примере задачи по обнаружению DDoS-атак:

создание поведенческих профилей, основанное на средневзвешенном трафике в разрезах min/hour/week/month;
наложение в реальном времени полученного поведенческого профиля на поступающий трафик для осуществления ежедневного мониторинга;
в случае отклонения от поведенческого профиля события идентифицируются как аномальные с присвоением соответствующего уровня риска.

Техники визуализации

Техники визуализации представляют собой инструменты по визуализации данных. После сбора достаточно большого массива данных возникает задача их анализа. Одним из способов решения указанной задачи является визуализация данных путем использования продуктов класса BI или аналогичных по функционалу инструментов. Значительно проще увидеть градацию событий по уровню риска, например, на каскадной диаграмме, или заметить выбросы и аномалии на точечном графике.

Простые агрегации

Простые агрегации – это техника оптимизации анализа. В процессе анализа достаточно часто «сырые» выборки данных обладают неоправданно большими объемами. Это негативно сказывается на аппаратных ресурсах, качестве анализа и результативности применения аналитических моделей. В связи с этим данные обязательно должны быть агрегированы по ключевым полям с целью оптимизации поиска и процесса анализа в целом.

Машинное обучение

Этапы создания математической модели на основе алгоритмов Data Mining

Алгоритмы машинного обучения (Data Mining), в качестве еще одной техники Cyber Threat Hunting, успешно применимы при фильтрации спама, обнаружении вредоносного трафика и детектировании мошеннических действий. Успешно внедренные в процесс хантинга алгоритмы способны существенно повысить эффективность защиты информации. Указанные алгоритмы можно внедрять в средства защиты информации, которые требуют серьезной ресурсной и организационной подготовки, как в IT, так и в ИБ-секторе. На Рисунке 2 представлены этапы создания математической модели на основе алгоритмов Data Mining. Данные алгоритмы подразделяются на два типа: «обучение с учителем» и «обучение без учителя».

Рисунок 2. Процессинг технологий Data Mining

Обучение с учителем

Наиболее распространенными задачами для этого типа алгоритмов машинного обучения являются задачи по классификации и регрессии. Решение задачи классификации позволяет распределить входные параметры по заранее известным группам, а решение задачи регрессии позволяет предсказать конкретное значение для каждой из входных величин. Алгоритмы решения обеих задач могут эффективно использоваться в области информационной безопасности – становится возможным определение критичности актива, который зависит от сетевого расположения актива, найденных уязвимостей в программном обеспечении и произошедших инцидентах на этом активе. Также возможно предсказание пользовательской вредоносной деятельности внутри организации в зависимости от последних действий пользователя в инфраструктуре в течение временного среза (не менее месяца).

Обучение без учителя

Типовой задачей для этого типа алгоритмов машинного обучения является кластеризация, то есть распределение входных величин по группам, наименование и количество которых заранее неизвестно. Ввиду трудности формализации указанной задачи, ее решение является гораздо более сложным разделом машинного обучения. В области информационной безопасности алгоритмы типа «обучение без учителя» ориентированы на задачи поиска скрытых закономерностей в действиях пользователей и обнаружения вредоносного программного обеспечения.

Байесовские методы

Байесовские методы – это «продвинутый» тип алгоритмов машинного обучения, который позволяет эффективно решать такие задачи машинного обучения, как классификация, уменьшение размерности и тематическое моделирование. При данном подходе вероятность можно интерпретировать как меру незнания, а не как случайность. Таким образом, использование байесовских методов позволяет задать четкое математическое описание обучения и численные метрики, позволяющие оценить качество и достоверность некоторого числа гипотез, в то время как классические подходы, как правило, позволяют оценить одну единственную гипотезу.

Выводы

Большинство производителей рынка информационной безопасности уже выпускают готовые решения, успешно использующие методы машинного обучения. В построении процесса Cyber Threat Hunting можно использовать как готовые решения, так и собственные разработки.

Описанные техники, относящиеся к науке о данных, будучи интегрированными в процессы Cyber Threat Hunting, позволяют решить множество актуальных задач информационной безопасности, особенно тех, которые на сегодняшний день решаются традиционными средствами защиты неэффективно или не решаются вовсе.

С каждым годом компании делают выбор в пользу решений с акцентом на проактивные технологии защиты, а решения, основанные на сигнатурных методах, становятся все менее эффективными и постепенно уходят на второй план. Для многих компаний вектор развития сместился в сторону внедрения технологий, поддерживающих симбиоз Cyber Threat Hunting и Data Science.

Полезные ссылки:

Применение технологий машинного обучения и искусственного интеллекта в ИБ

Умные камеры как элемент общественной безопасности