
2025 年 11 月 18 日 UTC 11:20 ,Cloudflare 网络开始出现核心流量 Deliver 严重故障。对于试图访问我们客户网站的互联网用户而言,这一故障表现为显示 Cloudflare 网络内部出错的错误页面。

此次故障并非由任何类型的网络攻击或恶意行为直接或间接导致。实际起因是我们对某一数据库系统的权限进行了变更,这一变更导致该数据库向 Bot 管理系统所使用的 “特征文件” 中输出了多条重复记录,进而使该特征文件的体积翻倍。随后,这份超出预期大小的特征文件被同步至我们网络中的所有服务器节点。
这些服务器上运行的流量路由软件会读取该特征文件,以确保 Bot 管理系统能够及时应对不断变化的安全威胁。但该软件对特征文件的大小设有上限,而翻倍后的文件体积已超出这一限制,最终导致软件运行故障。
起初,我们误将观察到的故障现象归因于超大规模 DDoS 攻击,但随后迅速锁定了核心问题。我们立即停止了超大体积特征文件的同步,并将其替换为早期版本的正常文件。截至 14:30 (译注:对应 UTC+8 22:30 ),核心流量已基本恢复正常。在接下来的数小时内,我们持续处理网络各环节因流量回流产生的负载激增问题,至 17:06 (译注:对应 UTC+8 次日 01:06 ),Cloudflare 所有系统均恢复正常运行。
对于此次故障给我们的客户以及全球互联网造成的影响,我们深表歉意。鉴于 Cloudflare 在互联网生态系统中的重要性,任何系统中断都是不可接受的。网络无法正常路由流量的这段时间,让我们团队的每一位成员都深感痛心。我们知道,今天我们让大家失望了。
本文将详细复盘事件的完整经过、暴露的系统与流程问题。同时,这也是我们一系列改进措施的起点(而非终点) 我们将通过这些措施,确保此类故障不再重演。
1 victimsss 1 小时 11 分钟前 刚上热乎的了,应用的用户模块刚接入 Cloudflare Turnstile ,就出现问题。 |
2 Nugine0 1 小时 1 分钟前 只能说匪夷所思。 cloudflare 没有灰度机制吗?一下子把全球的权限和配置全改掉?测试呢?这很难测出来吗? 设计时没预料到数据库权限问题?雪崩不做防御? 这下真得屋千蟑/海恩法则了。 |
4 idealhs 38 分钟前 上午提的代码,下午就回家休息了 |
6 MIUIOS 22 分钟前 用 ai 总结一下 大概就是他们利用一个 ClickHouse 采集用户的行为,然后把这些行为丢给一个机器人模块(其实就是个大模型)去给这个用户做风险评分(也就是风控)最后大模型生成出一个评分配置文件丢给节点,节点会根据这个配置去生成对应防火墙规则,结果有人去改了数据库权限啥的,导致它生成出了一个错误的配置文件(重复多行),然后迅速推到了整个网络,然后炸了 难怪一开始香港节点炸了,我切换到美国的就可以,后面美国的也炸了,我又切到英国的,结果也炸了。。 |