Яндекс опубликовал подробный разбор масштабного сбоя 29 ноября

Яндекс опубликовал подробный разбор масштабного сбоя 29 ноября

Яндекс опубликовал подробный разбор масштабного сбоя 29 ноября

Сбой 29 ноября был вызван нарушением сетевой связности из-за технических неполадок в работе инфраструктуры «Яндекс Облака». Компания выложила подробный разбор и разъяснила причины.

Массовый сбой в работе целого ряда сервисов произошел вечером 29 ноября. Он затронул работу банков, служб доставки, операторов связи, соцсетей, маркетплейсов, интернет-компаний.

Инциденте также отразился на работе системы бронирования авиабилетов «Леонардо».

Уже вечером 29 ноября пресс-служба Яндекса признала в ответ на запрос «Ведомостей», что в одной из зон доступности Yandex Cloud возникли проблемы с сетевой связностью.

«29 ноября один из контроллеров сети отказал, и совокупность вышеуказанных факторов привела к тому, что сетевые контроллеры в пике могли осуществлять распространение нескольких миллионов обновлений маршрутов в секунду, при этом работая медленнее, но штатно, всё ещё сохраняя функциональность связанного сервиса, — такие подробности привели технические специалисты Yandex Cloud. — При этом пограничные маршрутизаторы (узлы, отвечающие за внешнюю связность) не были готовы к такому потоку обновления маршрутной информации и не успевали декодировать обновления. Это приводило к росту очереди обновлений одновременно на всех инстансах разных группировок внешней связности и связному росту потребления памяти. Рост нагрузки на пограничные маршрутизаторы привел к их частичному отказу».

Для устранения инцидента технические специалисты локализовали контроллер, который вызвал отказ, и восстановили его работоспособность. Помимо этого, они увеличили объем памяти и доработали механизм защиты от исчерпания памяти для группировок пограничных маршрутизаторов, отвечающих за внешнюю связность.

Затем сотрудники технической службы воспроизвели инцидент в лабораторном контуре для проверки эффективности сделанных изменений и приняли меры к тому, чтобы циклическое обновление невалидных маршрутов не повторялось, причем при разных сценариях. Полностью работы по устранению сбоя были завершены 1 декабря.

В Security Vision SOAR появились ИИ-ассистент и ML-отчёты

Security Vision выпустила обновление платформы SOAR, добавив в неё несколько заметных функций — локальный ИИ-ассистент, ML-скоринг инцидентов и автоматические ML-отчёты по итогам расследований. Обновление ориентировано на повседневную работу SOC и обработку инцидентов без выхода за контур заказчика.

Security Vision SOAR используется для управления и автоматизации реагирования на инциденты информационной безопасности на всех этапах их жизненного цикла — от выявления и анализа до восстановления и постинцидентной работы.

В основе платформы лежит объектно-ориентированный подход: каждый элемент инцидента — будь то хост, учётная запись, процесс или артефакт — рассматривается как отдельный объект со своей историей, связями и возможными действиями.

Сценарии реагирования в системе динамические: плейбуки автоматически подстраиваются под развитие инцидента, появление новых данных и техник атак. Дополнительно платформа выстраивает цепочку Kill Chain, показывая, как развивалась атака и какие шаги предпринимал злоумышленник.

Система также предлагает рекомендации по дальнейшим действиям, опираясь на контекст инцидента, накопленный опыт SOC и ML-модели, включая оценку вероятности ложного срабатывания.

 

В новом релизе появился локальный ИИ-ассистент в формате чат-бота. Он работает полностью внутри инфраструктуры заказчика и не обращается к внешним сервисам. Ассистент учитывает контекст конкретного инцидента — его стадию, связанные объекты, историю действий и похожие кейсы — и помогает аналитикам разбираться в событиях, расшифровывать логи, понимать техники атак или формировать команды для диагностики. Модель может дообучаться прямо в SOC на результатах обработки инцидентов и аналитических бюллетенях, при этом все данные остаются внутри контура.

Ещё одно нововведение — ML-скоринг критичности инцидентов. Модель автоматически оценивает приоритет события на основе его масштаба и значимости затронутых активов, что упрощает триаж и помогает быстрее понять, какие инциденты требуют внимания в первую очередь.

Также в платформе появился ML-summary — автоматическое резюме по итогам расследования. При закрытии инцидента система формирует краткий отчёт в едином формате: что произошло, какие действия были выполнены, к какому результату они привели и удалось ли атакующему чего-то добиться. Такое резюме сохраняется в карточке инцидента и отчётности, упрощая передачу дел между сменами и снижая потерю контекста.

В целом обновление направлено на то, чтобы упростить и ускорить рутинную работу SOC: быстрее разбираться в инцидентах, снижать нагрузку на аналитиков и сохранять знания внутри команды без необходимости вручную оформлять каждый шаг расследования.

RSS: Новости на портале Anti-Malware.ru