Сбой питания в зоне Yandex Cloud: компания сделала выводы и назвала причины

Сбой питания в зоне Yandex Cloud: компания сделала выводы и назвала причины

Сбой питания в зоне Yandex Cloud: компания сделала выводы и назвала причины

30 марта 2025 года произошёл серьёзный сбой в одном из ключевых дата‑центров Яндекса — сервисы, размещённые в зоне, оказались временно недоступны. Причиной стал двойной отказ линий электропитания после аварии на опорной подстанции, вызвавшей каскадные отказы оборудования.

Ключевые факты:

  • Авария началась в 12:18 по московскому времени. В течение нескольких минут было зафиксировано критическое занижение напряжения.
  • Обе линии 110 кВ, питающие дата‑центр, отключились одновременно — ситуация крайне маловероятная, но всё же произошла.
  • Дизельные генераторы и ДРИБП поддержали критическую инфраструктуру (наблюдение, сеть, управление), но не могли принять полную нагрузку.
  • Полное восстановление сервисов заняло около 10 часов: к полуночи работа дата‑центра была полностью нормализована.

План по предотвращению повторений:

  • В Яндексе заявили о пересмотре рисков энергоснабжения и об усилении архитектуры резервирования.
  • Упор будет сделан не только на технические решения (включая ДГУ), но и на операционные учения и мультизональную устойчивость.
  • Для клиентов Yandex Cloud будет расширяться библиотека архитектур отказоустойчивости, включая инструменты вроде Zonal Shift, уже доказавшего свою эффективность в кризисной ситуации.

Яндекс подчёркивает: мультизональная архитектура — критически важна для надёжности. Опыт 30 марта — это повод для всех инженеров пересмотреть модели резервирования и подготовки к редким, но возможным аварийным сценариям.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Microsoft добавила в Windows быстрый откат ОС и облачное восстановление

На конференции Ignite 2025 Microsoft представила два новых инструмента, которые должны быстро возвращать Windows в рабочее состояние после неудачных обновлений или действий вредоносных программ: Point-in-time restore и Cloud rebuild. Таким образом корпорация старается минимизировать время возможного простоя у клиентов.

После крупного сбоя летом 2024 года Microsoft продолжает усиливать механизмы восстановления Windows.

Оба решения станут частью инициативы Windows Resiliency — программы, направленной на предотвращение, управление и восстановление после инцидентов и массовых сбоев.

Point-in-time restore (PITR) — это быстрый способ откатить систему к предыдущему рабочему состоянию без долгой диагностики и сложных манипуляций.

Microsoft подчёркивает, что опция подходит как обычным пользователям, так и ИТ-специалистам, которым нужно восстановить не один, а сразу десятки или сотни компьютеров. Процесс занимает считаные минуты и восстанавливает операционную систему, приложения, настройки и локальные файлы.

Второй инструмент — Cloud rebuild — предназначен для случаев, когда система работает настолько нестабильно, что никакие методы восстановления не помогают.

В таком случае администратор может инициировать полную переустановку Windows 11 из облака вместе со всеми нужными драйверами. Дальше вступают в работу Intune, Windows Autopilot, Windows Backup и OneDrive, автоматически возвращающие данные, приложения и настройки.

Microsoft также заявила, что Intune станет единым центром управления всеми инструментами восстановления для управляемых устройств. Через него можно будет запускать сценарии восстановления или инициировать нужные действия напрямую.

Предварительные версии, как сообщают СМИ, Point-in-time restore и Cloud rebuild станут доступны в первой половине 2026 года.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru