Глобальный хаос: Cloudflare сам вывел сети из строя
Раздутый конфигурационный файл для борьбы с ботами парализовал Twitter, ChatGPT и Spotify на три часа.
Основные идеи
Мнение автора
Проследил я сбой Cloudflare 18 ноября и был поражён масштабом хаоса: Twitter, ChatGPT и Spotify легли почти одновременно на три часа! Причина — раздутый конфигурационный файл для борьбы с ботами, который просто «сломал» систему. Вывод для меня очевиден: даже инфраструктура мирового уровня уязвима, и компании надо диверсифицировать облака. Советую всем держать в голове: цифровая жизнь может зависеть от чужого кода.
Раздутый файл конфигурации Cloudflare для борьбы с ботами спровоцировал глобальные сбои в работе Twitter, ChatGPT и Spotify, которые длились три часа.
Утренняя лента обрывается на полуслове. ChatGPT блокирует вопросы. Spotify замолкает. Восемнадцатого ноября они исчезли на три часа. Причина проста: Cloudflare — невидимый страж миллионов сайтов — захлебнулся собственными данными.
Эффект домино, которого никто не ожидал
Плановое обновление системы борьбы с ботами привело к самому крупному сбою Cloudflare с 2019 года.
Виноваты не хакеры или изощренные атаки. Система управления ботами Cloudflare, которая фильтрует вредоносный трафик, создала файл конфигурации с кучей дублей. Представьте список гостей, где каждое имя случайно повторяется пятьдесят раз. Этот список оказался настолько огромным, что обрушил всю систему безопасности.
Файл слишком большого размера попал на производственные серверы в 11:20 UTC. Это вызвало у инженеров так называемую «панику Rust unwrap()». Код столкнулся с чем-то совершенно неожиданным и просто сдался. По сути, произошел критический сбой системы из-за непредвиденного объема данных.
От Cloudflare так или иначе зависит почти 20% инфраструктуры интернета, поэтому сбой моментально ощутили во всем мире.
Три часа цифрового хаоса
Ошибки HTTP каскадом возникали на разных платформах, а системы аутентификации по всему миру выходили из строя.
Вместо новостных лент пользователи видели непонятные сообщения об ошибке сервера 5xx. Системы входа сломались, доступ к панели управления пропал. Перестала работать даже страница состояния Cloudflare, что поначалу навело инженеров на мысль о кибератаке.
Сбой распространялся подобно цифровому лесному пожару. Если вы не могли зайти в X, Uber или Canva, значит, столкнулись с тем же каскадом проблем, который отключил функции аутентификации и защиты на всех континентах. Независимые службы мониторинга подтвердили глобальный масштаб: платформы пострадали одновременно в разных частях света.
Неудобная правда генерального директора
Мэтью Принс публично признал провал и пообещал внести архитектурные изменения.
Генеральный директор Мэтью Принс извинился за проблемы, которые компания доставила интернету. Это произошло после восстановления системы около 17:06. Его команда исправила ситуацию заменой сбойного файла на раннюю версию и перезагрузкой основных служб. Удивительно «аналоговое» решение для столь высокотехнологичной проблемы.
Принс признал, что это был их самый серьезный сбой за последние шесть лет. Он пообещал улучшить системы проверки и изменить архитектуру отчетов об ошибках для предотвращения подобных ситуаций.
Точка отказа вашего интернета
Инцидент показал, насколько сильно цифровая жизнь зависит от горстки поставщиков инфраструктуры.
Ошибка в конфигурации одной компании не должна лишать доступа к основным платформам, но реальность иная. Повсеместное распространение Cloudflare, которая защищает и ускоряет трафик миллионов сайтов, означает одно: проблемы компании мгновенно становятся общими.
Пока компании не диверсифицируют свои облачные зависимости, ваш утренний распорядок будет зависеть от качества чужого кода. В следующий раз, когда любимое приложение внезапно сломается, помните: иногда основа интернета гораздо более хрупкая, чем кажется.















