这次 cloudflare 宕机是什么原因造成的？

Cloudflare

宕机

AI

60 条回复 • 2025-11-19 10:38:38 +08:00

1

wsseo

12 小时 4 分钟前

重大影响

2

wsseo

12 小时 1 分钟前

现在是时好时坏，哎

3

surbomfla

11 小时 57 分钟前

问题原因等官方发布报告吧，目前很多网站访问恢复了，希望不要再挂了吧

4

coderlxm

11 小时 55 分钟前 via Android

刚才好了一会然后又挂了，现在又好了哈哈

5

zsuxiong

11 小时 55 分钟前

大半个全球互联网都瘫痪了。

6

JoeJoeJoe

PRO

11 小时 54 分钟前

1

测试一下自己对世界互联网的影响力：）

7

laojuelv

PRO

11 小时 54 分钟前 via iPhone

我以为我的梯子坏了。还是 ip 被封了

8

harrietliu

11 小时 53 分钟前

大概是下午四点五十左右就崩掉了

9

darrh00

11 小时 50 分钟前

v2ex 有备份访问方式吗？

10

daybreakfangyang

11 小时 48 分钟前

AI 觉醒啦？🙂

11

moefishtang

11 小时 46 分钟前

用来摸鱼的网站都炸了😑
All in CloudFlare.All in boom.

12

PositionZero

11 小时 43 分钟前 via Android

这地图应该换成世界地图

13

ToPoGE

11 小时 43 分钟前

7

不是网络攻击

cloudflare CTO 已经明说了

I won’t mince words: earlier today we failed our customers and the broader Internet when a problem in
@Cloudflare
network impacted large amounts of traffic that rely on us. The sites, businesses, and organizations that rely on Cloudflare depend on us being available and I apologize for the impact that we caused.

Transparency about what happened matters, and we plan to share a breakdown with more details in a few hours. In short, a latent bug in a service underpinning our bot mitigation capability started to crash after a routine configuration change we made. That cascaded into a broad degradation to our network and other services. This was not an attack.

That issue, impact it caused, and time to resolution is unacceptable. Work is already underway to make sure it does not happen again, but I know it caused real pain today. The trust our customers place in us is what we value the most and we are going to do what it takes to earn that back.

https://x.com/dok2001/status/1990791419653484646

14

bOOOOc

11 小时 42 分钟前 via iPhone

cf 说的原因是“unusual traffic spike”

https://www.businessinsider.com/cloudflare-outage-internet-down-x-open-ai-2025-11

15

ervqq

11 小时 42 分钟前

https://www.cloudflarestatus.com/ 看官方监控，现在已经恢复了

16

SenLief

11 小时 40 分钟前

突然发现常去的网站都是套的 cf ，一挂全挂了。

17

usn

PRO

11 小时 39 分钟前 via iPhone

cf 真的太烂了，这就是垄断互联网之后为所欲为的表现

18

usn

PRO

11 小时 38 分钟前 via iPhone

事实上任何垄断都不好

19

How

11 小时 35 分钟前 via Android

互联网发展了二十多年就辛迪加了，赛博朋克就在不远的未来

20

israinbow

9 小时 56 分钟前

@usn #17 不是 cf 垄断, 是它不要钱所以大家都在用.

21

arloor

9 小时 47 分钟前 via Android

1

@israinbow 那也是垄断啊

22

docx

9 小时 44 分钟前 via iPhone

21

免费给你用，你说他垄断，这对吗？

23

iango

9 小时 15 分钟前

@usn
cloudflare 还排不上第一名，只能算第二梯队前列，要跟 AWS 、Google 、Azure 竞争。
CDN 服务老大是 Akamai 。

24

usn

PRO

8 小时 56 分钟前

1

@iango 好的，明白了，cf 只是善，但是能力不行

25

RTSmile

8 小时 53 分钟前 via iPhone

@usn 能力比你强多了

26

usn

PRO

8 小时 52 分钟前

@RTSmile ？

27

RTSmile

8 小时 47 分钟前 via iPhone

@arloor 远远达不到垄断的程度，这次虽然崩得网站不少但是还是有一大堆网站没受影响，足以说明 cloudflare 和别家的 cdn 都是正常竞争。

28

kimizen

8 小时 47 分钟前

2

@arloor 不准你这么说我的赛博大恩人！

29

hh7418695

4 小时 40 分钟前

@JoeJoeJoe 哈哈哈哈哈哈哈哈神评

30

rick13

2 小时 43 分钟前

等 blog 呗，cf 对于事故复盘 blog 还是认真的

31

x86

2 小时 43 分钟前

大概率是阻止我航班起飞🥵

32

noqwerty

2 小时 22 分钟前 via iPhone

1

官方博客的 postmortem 已经发布了： https://blog.cloudflare.com/18-november-2025-outage/

33

acthtml

2 小时 17 分钟前

这 cto 写的说明真实简洁明了。

34

aloxaf

2 小时 6 分钟前

在错误处理上偷懒导致的（ 😂

35

villivateur

2 小时 5 分钟前

@noqwerty 简单看了下，应该是错误配置导致一个文件体积迅速增长撑爆磁盘？如果是这样的化，应该比较好解释为什么中途好了一阵子，可能就像之前的段子说的，在硬盘里提前放一个没用的大文件，硬盘不够用了就先删除，可以临时撑一阵子。

36

realpg

PRO

2 小时 5 分钟前

1

这要是个中国云厂商估计 V2 帖子得多一百倍

37

hafuhafu

2 小时 4 分钟前

看了一下博客，我没理解错的话：
原因：说是权限变更导致数据库某个查询输出了意外的多条数据，然后导致产生的配置文件体积超级加倍，并下发到了所有机器上。然后机器上有个跨网络路由软件会读这个配置文件，但是软件内对读取文件的大小进行了限制，因为异常的文件太大了，超过了这个限制，所以就导致路由软件失效了，然后就全崩了。
排查：他们最早以为是被大规模 D 了，后面排查到了正确的原因，用配置文件的早期版本替换了。
时间线：
大规模出现故障 2025 年 11 月 18 日 11:20 UTC
核心流量恢复正常 2025 年 11 月 18 日 14:30 UTC
所有系统正常运行 2025 年 11 月 18 日 17:06 UTC

38

Debug1998

2 小时 2 分钟前

昨天晚上小黄网进不去，我以为我梯子挂了。

39

kamikaze472

2 小时 0 分钟前

@realpg #36 我个人感觉, 之前阿里云崩了, 远没有 Cloudflare 崩了帖子多

40

noqwerty

1 小时 54 分钟前 via iPhone

@villivateur 不是磁盘空间不足，是新部署的 ClickHouse 查询返回了重复的特征，这个特征文件是传给下游一个判断请求是否来自爬虫的模型的，特征数量超出了模型代码预期，于是直接抛错了

41

JYii

1 小时 53 分钟前

@realpg #36 那不肯定的吗，v 站基本都是国人，依赖国内服务，国内厂商炸了肯定反馈更多。还是说你要阴阳其他东西。

42

hafuhafu

1 小时 43 分钟前

@hafuhafu -> 还不是文件体积大小的问题。是里面配置的功能数量的限制。一般正常情况下，这个数量大概会有 60 个+，所以他们预设了正常情况下一个比较大的值 200 当最大限制，并且代码里取值的时候用 unwrap ，如果有异常程序就直接崩溃了。不懂 rust 不过这个 unwrap 这么危险么...