2025 年 11 月 18 日 Cloudflare 服务中断
Cloudflare 是一家负责全球大量网站流量传输与安全防护的互联网基础设施公司。其服务包括内容分发网络(CDN)、网站加速、安全防护(如 DDoS 攻击防御)等。公开数据显示,其网络承载了约 20 % 的全球网页流量。
2025 年11月18日的故障因此影响广泛,对普通用户与网络服务都产生了较大波及。
发生了什么?
2025 年11月18日 11:20 UTC,Cloudflare 的网络开始出现严重故障,核心网络流量不能正常传输。访问依赖其服务的网站时,用户会看到“服务器内部错误”或页面无法加载。
此次故障并非外部黑客攻击或恶意行为所致,而是内部系统发生了意外变更,引发了一系列失效。
服务中断影响
- 许多依赖 Cloudflare 的网站出现 HTTP 5xx 错误。
- 包括社交平台、人工智能服务、在线工具等多个大型服务受到影响。
- 登录页面、仪表板、验证系统也受波及:例如用户无法正常登录、验证失败、操作中断。
- 虽然部分子系统如邮件处理未完全中断,但其准确性和可靠性受到降低。
- 故障大范围、高影响:因为 Cloudflare 的网络服务覆盖非常广,故障波及面广。
Cloudflare 如何处理请求&这个故障为什么扩散
当你访问一个启用了 Cloudflare 服务的网站时:
- 浏览器或应用发起请求。
- 请求先进入 Cloudflare 的 HTTP/TLS 层。
- 然后流向其“核心代理”系统。
- 核心代理系统会应用该客户的安全策略(如 防火墙、机器人管理、缓存查询等)。
在本次故障中,用于“机器人管理”(Bot Management)模块的一份“特征文件”(feature file)发生异常。这份文件包含用来判定请求是否为自动化机器人的众多“特征”。Cloudflare 每隔几分钟就会将新版特征文件发布到全球其数据中心。
但这一次: - 数据库权限变更引发“特征文件”数据重复、条目翻倍。
- 文件大小超出系统预设限制。
- 核心代理中读取此文件的软件因此崩溃或出错。
- 错误文件被快速传播至全球多个节点,造成流量处理失败呈现“波动—恢复—再失败”模式。
- 初期 Cloudflare 团队曾误认为是大型 DDoS 攻击,但最终确认是内部配置导致的问题。
事件根本原因
- 在 Cloudflare 用于生成特征文件的数据库(ClickHouse 集群)中,部署了一次权限变更。变更后相关查询返回了重复的行,从而使得生成的特征文件条目数大幅增加。
- 系统为性能考虑,对特征文件加载模块有限制(如预分配内存、特征条目数最大值等)。当文件超出这个限制后,模块触发错误。
- 错误文件通过同步机制迅速分发到其全球网络节点,引起流量处理模块失败。
- 故障从单点开始蔓延至整个网络,造成大范围服务中断。
解决过程与恢复时间线
- 11:05 UTC:数据库访问控制变更部署。
- 11:20 UTC:用户开始看到错误,故障真正开始。
- 11:32 – 13:05 UTC:Cloudflare 团队调查 Workers KV、访问认证服务异常。
- 13:05 UTC:对部分子服务实施绕过措施,减缓影响。
- 14:24 UTC:停止生成并传播错误特征文件;开始回滚至已知正常版本。
- 14:30 UTC:核心流量基本恢复正常。
- 17:06 UTC:所有系统宣布恢复正常运行。
通过这些措施,Cloudflare 最终恢复了其服务,并恢复了全球网络中流量的正常承载。
Cloudflare 的回应与未来防范
Cloudflare 在事后发表声明:
- 强调这次事件不是攻击或恶意活动。
- 对受影响的客户及互联网服务道歉。
- 表示将加强生成配置文件流程的校验、限制文件大小、增强系统容错能力。
- 提出将开展更严格的发布检测流程、全球回滚机制和自动化 kill-switch(终止开关)以防此类问题再现。
总结
这次故障提醒我们:即便是互联网“基础设施”供应商,也可能因一个看似“小变更”引发大规模体系故障。对于普通用户来说,当你遇到网页无法访问、加载错误、登录失败时,可能并非单一网站的问题,而是整个服务链条中的关键环节出现了问题。对于网站管理员或技术负责人而言,需考虑到:你依赖的服务也在依赖其它基础设施。应当做好备份路径、容错设计与故障预案。
若你遇到访问某网站失败的情况,稍等一会儿再尝试、换网络环境或查看该网站是否有官方公告,通常就能恢复。对自己负责的网站而言,建议了解所依赖服务的 SLA(服务等级协议)及其故障历史,以便降低风险。