一行Rust代码瘫痪半个互联网?Cloudflare六年来最严重宕机始末欢迎收听

秦始皇看科技 2025-11-20 08:58:32

一行Rust代码瘫痪半个互联网?Cloudflare六年来最严重宕机始末欢迎收听本期播客,今天我们来聊聊让半个互联网“停摆”的大事件——Cloudflare在11月18日遭遇的持续五个半小时的宕机事故。这场故障可不一般,全球约20%网站都依赖Cloudflare的CDN服务,受影响的名单一长串:ChatGPT、Sora、Claude这些热门AI工具集体失联,Spotify、Canva、特朗普的Truth Social也没能幸免,甚至美国新泽西州公共交通系统官网都陷入瘫痪,连监测故障的DownDetector自己都短暂中招。更让人意外的是,这场六年来最严重的中断,根源竟藏在一行Rust代码里。今年9月,Cloudflare刚用号称“内存安全”的Rust重写核心代码,宣称能让服务“速度更快、安全性更高”,结果53天后就翻了车。故障报告显示,问题出在机器人管理模块的一段代码中,开发人员在生产环境使用了unwrap()函数,而一份自动生成的威胁流量管理配置文件突然翻倍扩容,超出了软件限制,最终引发系统崩溃。有内部消息透露,配置文件异常源于一次权限变更:工程师调整了ClickHouse数据库的查询规则,让用户能获取更多元数据,却没过滤数据库名,导致特征文件出现大量重复条目。更戏剧性的是,有传闻称最初是工程师删除了旧配置文件中“看似过时”的代码,才触发了连锁反应,修复时不得不找回尘封的备份,回滚一连串自动重载操作,办公室里满是红牛罐子和紧张的氛围。这次宕机不仅让Cloudflare股价下跌3%,还引发了行业热议。有人吐槽生产代码用unwrap()是“业余操作”,也有人争论核心问题是配置管理不当;更关键的是,它暴露了互联网对单一服务商的过度依赖——当20%的网站都把流量交给同一家公司,一个小漏洞就可能引发多米诺骨牌效应。事后Cloudflare承诺会加固系统,包括强化配置文件校验、增设紧急关闭开关等。但这场事故留下的思考远未结束:在追求技术迭代速度的同时,如何平衡稳定性与安全性?互联网的“去中心化”是否真的渐行渐远?你在当天是否遇到了网站打不开、AI工具用不了的情况?欢迎在评论区分享你的经历。本期播客就到这里,我们下期再见。

0 阅读:0
秦始皇看科技

秦始皇看科技

感谢大家的关注