Стали известны подробности сбоя у Cloudflare: система Bot Management сгенерировала некорректный файл конфигурации. Он оказался слишком большим — в нём неожиданно появилось более 200 параметров вместо привычных ~60. Это превысило встроенный лимит и вызвало падение программного модуля, через который проходит трафик Cloudflare.
Напомним, у Cloudflare во вторник случился самый серьёзный сбой с 2019 года. Из-за ошибки в конфигурации баз данных часть глобальной сети компании перестала корректно обрабатывать трафик почти на шесть часов.
В результате множество сайтов и сервисов по всему миру были недоступны или работали с перебоями.
Виновный файл конфигурации был создан повторно из-за того, что обновлённые и не обновлённые узлы кластера возвращали разные метаданные. Каждые пять минут сеть переходила из рабочего состояния в аварийное, в зависимости от того, какая версия файла попадала на узлы.
Когда увеличенный файл начинал распространяться по инфраструктуре, модуль Bot Management, написанный на Rust, уходил в панику, вызывая массовые ошибки 5xx на сайтах.
Гендиректор Cloudflare Мэттью Принс подчеркнул, что речь не идёт о кибератаке:
«Проблема не была вызвана кибератакой или злонамеренной активностью. Всё началось с изменения прав одной из наших баз данных, что привело к генерации некорректного файла для системы Bot Management».
К 14:30 UTC инженеры вычислили причину и подменили проблемный файл на предыдущую корректную версию. Полностью все системы восстановили работу к 17:06 UTC. Сбой затронул CDN и сервисы безопасности, Turnstile, Workers KV, доступ к панели управления, почтовую защиту и механизмы аутентификации.
Принс назвал инцидент «неприемлемым»:
«Это был худший сбой Cloudflare с 2019 года… Мы приносим извинения клиентам и всему интернету. С учётом нашей роли в экосистеме любой простой недопустим».










