Сбой питания в зоне Yandex Cloud: компания сделала выводы и назвала причины

Сбой питания в зоне Yandex Cloud: компания сделала выводы и назвала причины

Сбой питания в зоне Yandex Cloud: компания сделала выводы и назвала причины

30 марта 2025 года произошёл серьёзный сбой в одном из ключевых дата‑центров Яндекса — сервисы, размещённые в зоне, оказались временно недоступны. Причиной стал двойной отказ линий электропитания после аварии на опорной подстанции, вызвавшей каскадные отказы оборудования.

Ключевые факты:

  • Авария началась в 12:18 по московскому времени. В течение нескольких минут было зафиксировано критическое занижение напряжения.
  • Обе линии 110 кВ, питающие дата‑центр, отключились одновременно — ситуация крайне маловероятная, но всё же произошла.
  • Дизельные генераторы и ДРИБП поддержали критическую инфраструктуру (наблюдение, сеть, управление), но не могли принять полную нагрузку.
  • Полное восстановление сервисов заняло около 10 часов: к полуночи работа дата‑центра была полностью нормализована.

План по предотвращению повторений:

  • В Яндексе заявили о пересмотре рисков энергоснабжения и об усилении архитектуры резервирования.
  • Упор будет сделан не только на технические решения (включая ДГУ), но и на операционные учения и мультизональную устойчивость.
  • Для клиентов Yandex Cloud будет расширяться библиотека архитектур отказоустойчивости, включая инструменты вроде Zonal Shift, уже доказавшего свою эффективность в кризисной ситуации.

Яндекс подчёркивает: мультизональная архитектура — критически важна для надёжности. Опыт 30 марта — это повод для всех инженеров пересмотреть модели резервирования и подготовки к редким, но возможным аварийным сценариям.

SIEM Alertix 3.9 получила автоматизацию реагирования на инциденты

Российский разработчик решений для информационной безопасности NGR Softlab выпустил крупное обновление своей SIEM-системы Alertix — версия 3.9 получила сразу несколько заметных изменений. Основной акцент в релизе сделали на автоматизацию реагирования при расследовании инцидентов, удобство работы аналитиков и навигацию внутри платформы.

Одно из ключевых нововведений — механизм реагирования на инциденты, построенный на обновлённом управлении скриптами.

Теперь сценарии можно напрямую связывать с правилами корреляции, и они автоматически отображаются в воркспейсах. При этом система умеет передавать параметры события прямо в сценарий: имя пользователя, домен, адреса источника и назначения и другие данные. На их основе можно, например, оперативно ограничить доступ к скомпрометированной учётной записи или хосту.

За счёт автоматической передачи данных реагирование становится быстрее и требует меньше ручных действий со стороны аналитика. Скрипты можно использовать не только для реагирования, но и для обработки и обогащения данных — как в воркспейсах, так и при работе с блокнотом аналитика.

Заметно обновилась и страница обзора. Интерфейс стал проще и понятнее, а поиск теперь работает не только по индексам, но и по обсерверам. Это позволяет анализировать конкретные источники данных без жёсткой привязки к заранее созданной структуре. В разделе «Обзор» появились вкладки с поддержкой датасетов, благодаря которым можно быстрее переходить к нужным фильтрам и наборам данных в рамках одного окна.

Дополнительные улучшения коснулись модуля инвентаризации. В нём теперь можно хранить сведения об операционных системах, программном и аппаратном обеспечении, что упрощает расследование инцидентов. Сбор этой информации доступен и с помощью агентов Alertix.

Изменения затронули и прикладную часть SIEM. В версии 3.9 появилась возможность обогащения событий данными от RST Cloud, которые обновляются ежедневно. Пользователи получают уже обработанную, нормализованную и отфильтрованную информацию об угрозах, что снижает уровень шума и уменьшает количество ложных срабатываний.

В NGR Softlab отмечают, что обновление ориентировано прежде всего на повседневную работу ИБ-команд: система не только собирает и анализирует события, но и помогает быстрее переходить к действиям, а новые инструменты навигации и инвентаризации упрощают расследование инцидентов и мониторинг инфраструктуры.

RSS: Новости на портале Anti-Malware.ru