Мониторинг ИТ-инфраструктуры: от метрик к Observability и ИИ

...

Мониторинг ИТ-инфраструктуры: как обеспечить стабильность сервисов

Стабильность ИТ‑сервисов — основа бесперебойной работы современного бизнеса. Сбои в инфраструктуре ведут к финансовым потерям и подрывают доверие клиентов. Грамотный мониторинг помогает выявлять и устранять проблемы до того, как они затронут пользователей.

1. Введение
2. Почему классический мониторинг не покрывает потребности современной инфраструктуры?
3. Как определить зону покрытия мониторинга?
4. Как собирать данные: агентский и безагентский подход
5. Как ИИ помогает выявлять аномалии в работе ИТ-инфраструктуры?
6. Из чего должна состоять платформа мониторинга?
7. Прогнозы: какие подходы к мониторингу станут базовыми для компаний через 1–2 года
8. Выводы

Введение

В эпоху цифровой трансформации стабильность ИТ-сервисов стала критически важным фактором успеха бизнеса. Сбои в работе систем приводят не только к прямым финансовым потерям, но и к утрате доверия клиентов — а в условиях высокой конкуренции это может оказаться ещё более болезненным последствием.

Ключевую роль в поддержании бесперебойной работы играет мониторинг ИТ-инфраструктуры: он позволяет не просто фиксировать ИБ-инциденты, а прогнозировать и предотвращать их, обеспечивая высокий уровень надёжности сервисов.

Современный ИТ-ландшафт стремительно усложняется: распределённые системы, микросервисная архитектура, облачные и гибридные среды создают новые вызовы для инженеров. Традиционные методы мониторинга уже не справляются — они фиксируют последствия, но не предупреждают о надвигающихся проблемах.

Эксперты обсудили, какие инструменты и практики помогают перейти от хаотичного сбора метрик к управляемой наблюдаемости (Observability), как сократить время реакции на ИБ-инциденты и какие решения действительно работают в российских ИТ-реалиях.

Рисунок 1. Эксперты в студии AM Live

Участники эфира:

Дмитрий Унтила, CPO «Пульта» и «Графини», «Лаборатория Числитель».
Денис Назаренко, руководитель отдела технической поддержки продаж, UDV Group.
Владимир Гурьянов, технический директор продукта Deckhouse Observability Platform, «Флант».
Артур Пярн, руководитель отдела продуктового развития департамента разработки ПО Скала^р, Группа Rubytech.
Александр Буторин, руководитель технической команды домена B2B, Банк ДОМ.РФ.

Ведущий и модератор эфира — Руслан Иванов, директор департамента продуктового развития гибридных и частных облаков, Clоud.ru.

Почему классический мониторинг не покрывает потребности современной инфраструктуры?

Артур Пярн уверен, что одним мониторингом задачу не решить. Мониторинг — это необходимый рабочий инструмент в любой системе эксплуатации. Однако он сопряжён с рядом сложностей.

Сложность определения взаимосвязей

Сам по себе мониторинг не отображает взаимосвязи компонентов в ИТ‑инфраструктуре. Даже при идеально настроенных триггерах, алертах и уведомлениях инженеру приходится:

открывать карты систем и документацию;
вручную анализировать ситуацию;
искать первопричину (Root Cause) инцидента.

Решение — интеграция системы мониторинга с CMDB (базой данных управления конфигурациями) и картой инфраструктуры. Это позволит:

наглядно отображать взаимосвязи между системами;
отслеживать, какие компоненты затронуты инцидентом;
представлять данные в удобной форме — например, в виде графов по взаимосвязям и срезам;
собирать карту инфраструктуры в режиме реального времени, чтобы точно понимать текущее состояние системы.

Отсутствие целостной картины состояния

Решение — внедрение карты модели здоровья (Health Map). Она даёт возможность:

сначала увидеть общий сигнал о проблеме;
отследить взаимосвязи компонентов;
только затем углубляться в детали.

Артур Пярн, руководитель отдела продуктового развития департамента разработки ПО Скала^р, Группа Rubytech

Ограниченность человеческого анализа

Мир движется в сторону применения ИИ. Преимущество ИИ-решений неоспоримо: они способны анализировать огромное количество взаимосвязей одновременно. Для этого нужен цифровой слепок инфраструктуры — единая модель, включающая топологию и взаимосвязи компонентов, данные мониторинга в режиме реального времени.

На базе такого слепка нейросеть сможет:

выявлять скрытые закономерности и аномалии;
прогнозировать потенциальные инциденты в области безопасности;
давать объективную оценку ситуации.

Дополнительный инструмент — рабочий стол инцидента. При создании инцидента в Service Desk система должна автоматически обогащать заявку данными:

точное место возникновения проблемы (часть инфраструктуры);
затронутые сервисы и компоненты;
релевантные метрики и алерты.

Это превращает мониторинг из изолированного инструмента в часть единой бизнес-системы эксплуатации. В итоге эффективность достигается только через комплексный подход к эксплуатации и сопровождению ИТ-инфраструктуры.

Денис Назаренко добавил, что помимо внедрения технологических решений — карт здоровья, цифровых слепков, ИИ — критически важно изменить мышление (майндсет) команд. Специалисты разных подразделений должны работать в синергии — только так можно перейти от реагирования на инциденты к их предотвращению.

Что лучше — централизованный или децентрализованный мониторинг? Денис Назаренко считает, что выбор зависит от масштаба компании и задач, которые она решает: где-то централизация будет успешной — она позволит обеспечить прозрачность и гибкость для всей команды, если есть такая цель. А если структура геораспределённая, это тяжело и дорого, тогда проще использовать модель децентрализации.

Единого варианта нет. ИТ может построить мониторинг и тем, и другим способом, но только от бизнеса зависит, что окажется эффективнее. Исходя из понимания целей, нужно подбирать подходящий инструмент.

Денис Назаренко, руководитель отдела технической поддержки продаж, UDV Group

В первом опросе зрители ответили, какую систему мониторинга ИТ-инфраструктуры они используют:

Open Source — 42 %.
Зарубежную — 19 %.
Гибридную — 14 %.
Отечественную — 13 %.
Не используют мониторинг — 9 %.
Собственную разработку — 3 %.

Рисунок 2. Какую систему мониторинга ИТ-инфраструктуры вы используете?

Как определить зону покрытия мониторинга?

Александр Буторин полагает, что подход к мониторингу нужно структурировать. Он выделяет превентивный мониторинг: такой подход позволяет охватить часть систем и команд. Визуализация данных на дашборде не всегда отвечает реальным потребностям.

Критически важно предусмотреть роль человека: он должен оперативно реагировать на сбои, выстраивать процесс передачи соответствующих артефактов и определять, кто будет заниматься устранением проблемы.

Александр Буторин, руководитель технической команды домена B2B, Банк ДОМ.РФ

Мониторинг не принесёт пользы командам, которые только разрабатывают решения, если с ним никто не будет работать. Кроме того, если к сработавшему триггеру мониторинга вернуться лишь через месяц, информация уже потеряет актуальность.

Денис Назаренко считает, что нужно мониторить всё, но последовательно, исходя из приоритетов. Если подключить сразу все имеющиеся объекты, получится колоссальный объём данных — это создаст слишком сильную нагрузку для команды, и не всегда понятно, зачем это нужно. Начинать следует с приоритизации — отталкиваться от бизнес-критичности.

Руслан Иванов считает, что основой подхода должна стать сервисная модель. По его мнению, точки мониторинга следует выставлять по приоритетам — исходя из этой модели и конкретных задач. Для каждой компании сервисная модель, точки мониторинга и подходы будут разными — это обусловлено различиями в командах и имеющихся возможностях.

Руслан Иванов, директор департамента продуктового развития гибридных и частных облаков, Clоud.ru

Как собирать данные: агентский и безагентский подход

Артур Пярн рассказал, что его компания использует оба подхода — агентский и безагентский, гибко отталкиваясь от задач. Некоторые данные можно собрать только с помощью агентов, а там, где есть возможность, применяется безагентский подход.

Перечень объектов мониторинга постоянно расширяется. Преднастроенные дашборды и метрики — полезное подспорье, на которое можно опираться. Компания непрерывно подключает к системе мониторинга новые системы.

Агенты должны взаимодействовать внутри сети заказчика. Для этого существуют разные подходы к обеспечению безопасности — с точки зрения регуляторики и построения сетей под мониторинг.

При интеграции дополнительных сервисов некоторые метрики можно получать безагентским способом, например через API. Архитектурные подходы к реализации варьируются в зависимости от полноты покрытия, допустимой регуляторикой, и ограничений, которые устанавливают заказчики.

Владимир Гурьянов полагает, что безагентский подход удобен и широко распространён, но имеет существенный недостаток. Если на стороне системы мониторинга или между приложением (системой и т. д.) и системой мониторинга возникает сбой, на какое-то время компания работает вслепую. В такой ситуации невозможно ретроспективно выяснить, где возникла проблема.

В этом контексте агентский подход выглядит более выигрышным с точки зрения наглядности. Однако его сложнее реализовать и эксплуатировать.

Владимир Гурьянов, технический директор продукта Deckhouse Observability Platform, «Флант»

Во втором опросе зрители поделились, что для них самое важное в мониторинге ИТ-инфраструктуры (мультивыбор):

Понимать причину проблемы или инцидента — 86 %.
Быстро находить сбои и проблемы — 69 %.
Видеть состояние всей инфраструктуры в одном месте — 64 %.
Прогнозировать сбои заранее — 52 %.
Связывать мониторинг с процессами реагирования — 43 %.
Влияние на бизнес-сервисы — 38 %.
Снижать количество ложных алертов — 37 %.

Рисунок 3. Что для вас самое важное в мониторинге ИТ-инфраструктуры?

Как ИИ помогает выявлять аномалии в работе ИТ-инфраструктуры?

Артур Пярн считает, что мониторинг строится вокруг моделей — в том числе для работы ИИ с этими моделями. Он выделяет 3 фазы работы такой модели:

Получение актуальной картины: данные в модели мониторинга — по составу, компонентам и связям — должны быть актуальными. Необходимо обеспечить максимальное покрытие, видимость и единый источник правды. Тогда ИИ сможет проанализировать сотни или тысячи параметров и сделать выжимку.
Добавление историчности модели. Нужно предусмотреть временные срезы, которые могут запускаться событиями, — так формируется таймлайн модели. Это позволит ориентироваться и в количественном, и в качественном аспектах: понимать, что произошло, и проводить ретроспективный анализ. В результате у ИИ появится больше возможностей найти первопричину.
Моделирование влияния потенциальных изменений. На основе ретроспективных данных нужно понять, какое изменение планируется внести и на что оно может повлиять, — то есть спрогнозировать ситуацию на будущее.

При наличии этих составляющих формируется ИИ-совместимая система мониторинга. Её основная ценность — в возможности моделировать, делать саммари и агрегации событий. Это повышает скорость реагирования.

Дмитрий Унтила отмечает, что ИИ-агент нацелен на выдачу ответа, который удовлетворит пользователя, при этом информация может не соответствовать действительности: иногда такие агенты предоставляют неверные данные.

Эксперт подчёркивает: в мониторинге всегда был человек, который должен принять решение, ИИ-агент на это не способен. Если у пользователя нет знаний о мониторинге или конкретной системе и он полностью полагается на выводы ИИ, это создаёт существенный риск.

Дмитрий Унтила, CPO «Пульта» и «Графини», «Лаборатория Числитель»

Из чего должна состоять платформа мониторинга?

Владимир Гурьянов считает, что требования к работе с логами (журналами) различаются: одним достаточно просто их сохранить, другим необходимо хранить данные 5 лет, третьим нужен полнотекстовый поиск, а кто‑то планирует строить по логам метрики и на их основе — алерты. В зависимости от задач выбирается инструмент: для работы с логами подойдут ELK Stack, Grafana Loki или ClickHouse. Вендорские решения зачастую базируются на аналогичных технологиях.

Что касается метрик и трассировок, ситуация проще: в перспективе мир будет ориентироваться на Prometheus‑подобные системы. Среди альтернатив — VictoriaMetrics, Cortex, Thanos и другие решения: выбор зависит от текущих задач и используемых технологий.

Эксперт подчёркивает: при выборе системы важнее не столько конкретные инструменты или задачи, сколько компетенции сотрудников (с какими решениями они умеют работать) и распространённость системы на рынке.

В третьем опросе выяснилось, что для зрителей сложнее всего при внедрении мониторинга ИТ-инфраструктуры (мультивыбор):

Обосновать экономическую выгоду для бизнеса — 79 %.
Настроить полезные алерты без лишнего шума — 68 %.
Интегрировать мониторинг с ITSM, SIEM и другими системами — 53 %.
Понять, что именно нужно мониторить — 47 %.
Собрать данные из разных систем — 47 %.
Обучить команду работать с мониторингом — 46 %.
Выбрать подходящие инструменты — 14 %.

Рисунок 4. Что сложнее всего при внедрении мониторинга ИТ-инфраструктуры?

Прогнозы: какие подходы к мониторингу станут базовыми для компаний через 1–2 года

Дмитрий Унтила: «Сейчас всех волнуют главные вопросы: импортозамещение до 2027 года, опенсорс, Приказ 117 ФСТЭК, развитие ИИ».

Денис Назаренко: «Тема импортозамещения действительно важна. ИИ — это то, о чём необходимо думать. Запрещать — худший из возможных вариантов. Важно продумать, как классифицировать и контролировать эти технологии. Как бы сложно ни было, двигаться в этом направлении необходимо».

Владимир Гурьянов: «Есть ещё 2 важных тренда: стандартизация подходов и повышение уровня автоматизации. Сейчас появляется множество инструментов, позволяющих сократить количество рутинных операций — от автоинструментирования кода для сбора трейсингов и логов до умных агентов, которые автоматически обнаруживают ПО на хостах и собирают метрики. Итоговый тренд — снижение влияния человека на процессы мониторинга».

Артур Пярн: «Развитие мониторинга движется к цифровым двойникам: сначала создаётся точная модель инфраструктуры, а затем на её основе выстраивается Observability. Такая система должна быть готова к внедрению ИИ — только тогда мы сможем корректно интерпретировать данные и получать реальную пользу от мониторинга».

Александр Буторин: «Хочется получить единый удобный инструмент со встроенным ИИ, который изначально соответствует регуляторным требованиям и защищён с точки зрения регуляторов».

Четвёртый опрос показал, планируют ли зрители развивать мониторинг ИТ-инфраструктуры после эфира:

Будут усиливать текущую систему мониторинга — 53 %.
Планируют запуск нового проекта — 17 %.
Возможно, но пока это не приоритет — 16 %.
Текущего мониторинга достаточно — 14 %.

Рисунок 5. Планируете ли вы развивать мониторинг ИТ-инфраструктуры после эфира?

Выводы

Мониторинг ИТ-инфраструктуры сегодня — это не просто сбор метрик и фиксация сбоев, а комплексная система, от которой напрямую зависят стабильность бизнеса и доверие клиентов. Анализ мнений экспертов и данных опросов показывает: традиционные подходы уже не справляются с вызовами современной инфраструктуры — распределённых систем, микросервисов и гибридных сред.

Эффективность мониторинга достигается за счёт комплексного подхода. Интеграция с базой данных управления конфигурациями (Configuration Management Database, CMDB) и картами инфраструктуры, внедрение карт здоровья (Health Map) и цифровых слепков позволяют получить целостную картину состояния систем и выявить взаимосвязи между компонентами. Это сокращает время поиска первопричины сбоев и переводит работу с инцидентами из реактивного режима в превентивный.

Важную роль в развитии мониторинга играет искусственный интеллект (ИИ). ИИ-решения способны анализировать огромные массивы данных, выявлять скрытые аномалии и прогнозировать потенциальные проблемы. Однако полностью полагаться на автоматизацию нельзя: человек по-прежнему остаётся ключевым звеном в принятии решений. Успех возможен только при сочетании технологий и грамотного взаимодействия команд — когда специалисты разных подразделений работают в синергии.

Выбор стратегии мониторинга — централизованной или децентрализованной — и методов сбора данных — агентского или безагентского — должен опираться на конкретные бизнес-цели, масштаб компании и её архитектуру. Гибкость и приоритизация — обязательные условия: начинать стоит с наиболее критичных для бизнеса сервисов, постепенно расширяя зону покрытия.

Надёжный мониторинг ИТ-инфраструктуры складывается из 3 ключевых элементов: современных технологических инструментов, грамотной стратегии внедрения и вовлечённости команд. Только такой подход позволит обеспечить требуемый уровень соглашения об уровне сервиса (Service Level Agreement, SLA), минимизировать риски сбоев и выстроить устойчивую ИТ-среду, готовую к будущим вызовам.

Телепроект AM Live еженедельно приглашает экспертов отрасли в студию, чтобы обсудить актуальные темы российского рынка ИБ и ИТ. Будьте в курсе трендов и важных событий. Для этого подпишитесь на наш YouTube-канал. До новых встреч!

Полезные ссылки:

Как проводить расследование киберинцидентов в условиях кибератак

От хаоса к порядку: выстраиваем политики безопасности для удалённого доступа в компании

Комплекс полноценности: ежедневный мониторинг, расследования инцидентов и работа на упреждение