https://mp.weixin.qq.com/s/rJ2_TEc9mDxfJ1q4gCN-Zg
最后,我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。此次香港 Region 可用区 C 服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。稳定性是云服务的生命线,对我们的客户至关重要。我们将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性,不辜负客户所托!
估计赔偿是有了,但是感觉对服务有点不放心了
1
mytsing520 2022-12-25 17:51:54 +08:00 6
基础设施是别人的,应急预案几乎都使不上
|
2
Ansen 2022-12-25 18:07:36 +08:00 via iPhone
阿里就国内不错,海外全是租设备,当二道贩子
|
3
cveoy 2022-12-25 18:40:35 +08:00 1
阿里的道歉信为什么要用微信发?笑死
|
4
wangxiaoaer 2022-12-25 18:52:32 +08:00 2
就想知道他那个服务状态页面是不是个摆设?
|
5
janus77 2022-12-25 18:53:21 +08:00
总结:温度太高了 空调也歇逼了 导致烧到冒烟死机
|
6
zwnozhuce 2022-12-25 19:03:43 +08:00
还是国际知名云厂商相对靠谱些, 比如 AWS
|
9
SQLException OP |
10
salmon5 2022-12-25 19:47:41 +08:00
|
11
salmon5 2022-12-25 19:49:21 +08:00
|
12
picone 2022-12-25 19:58:52 +08:00
很好奇这些机房应该有买保险吧?有没有行内的人解释一下?
|
13
simau 2022-12-25 20:02:49 +08:00
公告里面有提到要上线新的状态页,估计就是静态页面
|
14
Yourshell 2022-12-25 20:14:06 +08:00
阿里云的站内消息估计也就是发广告用的
|
15
CFM880 2022-12-25 21:00:57 +08:00
我:720/744=0.967741935483871 , 本次事故属于低于 99%但等于或高于 95%,实例月度服务费的 25% 是吧
https://status.aliyun.com/上面轻量云 18 号是可以用状态,但是事实上是不可用,https://sla.console.aliyun.com/ 上监控 SLA 受损的产品实例,不可靠,麻烦确认是不是上面的赔付等级 阿里云:您好 : 抱歉根据您反馈的记录确实无法直接确认,您可以次月第 5 个工作日后,您可以通过 https://sla.console.aliyun.com/ 查看相关记录并在线申请。对于给您带来的影响,我们再次向您表示歉意,感谢您的理解。 看看能不能顺利申请到赔偿,这个 sla 上的监控估计是没有监控到不可用的时候,看看还要不要自己举证 |
16
qq723985066 2022-12-25 21:01:41 +08:00
我想问下为啥还能启动喷淋,是没人敢关机么,那天么的列头柜的喷了 以后问题更大
|
17
cubecube 2022-12-25 21:16:32 +08:00
@qq723985066 我怀疑喷淋是消防系统,和空调系统没有互通。以为火灾了。。
|
18
Tyuans 2022-12-25 21:19:37 +08:00
之前上课老师说机房都没有防火喷头的,说机器进水。看了 OVH 的火灾以为大家都这样,怎么阿里这真能给机器喷水...
|
20
CapNemo 2022-12-25 22:11:14 +08:00
猜测是机房里有人 /门开着,因此消防系统没有选择释放灭火气体而是启动了喷淋?
|
21
mytsing520 2022-12-25 22:44:58 +08:00
@janus77
应为:制冷歇逼了,导致温度过高,然后后面一系列 GG 。 |
22
zhs227 2022-12-25 22:47:16 +08:00
有一台轻量到第二天下午提了工单才恢复,但根据这个通告,19 号凌晨就恢复完了。表示呵呵
|
23
KanVivii 2022-12-25 23:23:37 +08:00 1
@picone DC 给客户提供的 Colocation Cage/Cabinet 业务是包含 SLA 的,其中包括了电力,空调,安全等等的保障范围
所以非不可抗力情况下出现故障,DC 也是会赔偿阿里云的。保险业务可能是针对火灾这种需要重建的 |
24
ohmyzsh 2022-12-26 08:50:24 +08:00 1
吹一万次,不如来一次事故,信赖 GG
|
25
lyhiving 2022-12-26 09:20:54 +08:00
国外业务远离阿里云或者将阿里云当备用才是最实在的。
国内的也是尽量不要搞阿里云,出了名的套路云。然后之前宣传的 9 个九的保障,真的是渣渣。 只有当你发工单他们才说故障中,否则,你在阿里云后台看到的是机器在黑洞中,状态页面是绿色的!!!! 这个就是最恶心人的地方! |
26
salmon5 2022-12-26 09:43:23 +08:00
到目前为止,我认为能打的只有阿里云和 AWS 。试用过 azure.cn 云,难用。GCP 没账号没用过。其他的就不值一提了。
|
27
QKgf555H87Fp0cth 2022-12-26 09:59:53 +08:00
@lyhiving 我笑死, 阿里云他们直接不回我,11 个小时后才回我,说原因和赔偿。
|
28
gezimonkey 2022-12-26 10:28:42 +08:00
根据《建筑设计防火规范》 GB50016 规定机房应设置自动灭火系统,并宜采用气体灭火系统。气体灭火系统中,常见的有七氟丙烷灭火系统、高压二氧化碳灭火系统、ig541 混合气体灭火系统等。
这个喷淋的包间不合规了吧?要是咬着告,估计能告下不少钱或者人来 |
29
cctv1005s927 2022-12-26 10:44:23 +08:00
@cveoy 微信公众平台啊... 作为公众渠道之一,我觉得是正常的公关渠道吧?
|
30
cctv1005s927 2022-12-26 10:49:55 +08:00 1
@lyhiving
国外业务首推还是 AWS 。 但国内业务我与你的观点,恰恰相反,我的观点是,在基础设施这块,反而阿里云是国内最可以信赖的厂商,如果这次的业务没有受到香港事件的影响,那么国内的服务可靠度,包括 status page 都会得到进一步的增强,阿里云有别的厂家所没有的故障经验,我反而觉得下一次遇到这种大规模长时间故障的概率会更小了。 |
31
unco020511 2022-12-26 10:53:13 +08:00
这个影响很大啊感觉
|
32
sunhelter 2022-12-26 10:58:43 +08:00
@gezimonkey 香港的机房,你这是国标
|
33
securityCoding 2022-12-26 11:13:01 +08:00
@unco020511 影响肯定大啊,澳门政务挂了多少服务
|
34
AltairT 2022-12-26 11:36:44 +08:00 3
我通读了全文,感觉除了机房本身设施的问题,阿里的高可用设计本身也是有问题的。C 可用区不可用居然影响到其他可用区的服务了。
|
35
aheadlead 2022-12-26 11:38:19 +08:00
aws 那么多 livesite 没人提…
|
37
aeli 2022-12-26 13:48:30 +08:00
@gezimonkey 拿 GB 国标规范去香港告,搞笑么。
|
38
gezimonkey 2022-12-26 14:02:01 +08:00 1
@aeli 去问了一下相关安防及消防行业的人,虽然他们也没接触过港标的项目,但说美标和欧标也都没有机房用喷淋灭火的,大概率是机房扩建占用了一个不合规的房间;就是想说里面可能会有不合规的事,引用 GB 只是找起来比较方便,不必揪着证明我有多无知......
|
39
lyhiving 2022-12-26 14:35:04 +08:00
|
41
bjzhush 2022-12-26 16:03:43 +08:00
通篇看下来阿里云的态度还是高高在上的,没有一点道歉的诚意,真是让人恶心
|
42
cctv1005s927 2022-12-26 17:13:55 +08:00
@lyhiving
> 国内还选阿里云的都是脑抽了... 在这点上,我觉得您可以在细化一点,比如说贵司在阿里云上有多少多少业务量,买了哪些服务,因为阿里云的什么问题,导致了大概多少损失,或者是阿里云的哪里问题,让我们作为开发者觉得不爽。 这样,我们开发者在做决策购买云厂商服务的时候,可以根据您的经验避坑,您觉得呢?😄 |
43
lyhiving 2022-12-26 17:58:13 +08:00
@cctv1005s927 不知道你要怎么样的细化。
比如 ECS 的,从经典网络到 VPC ,说转就转,完全不保留经典网络的选型。原因是内网攻击,是他们网络内部设计的缺陷,让我们不同主体间的通信变得异常复杂,后来上了 classicLink ,也是各种限制,各种掏钱。 说到 RDS ,你见过 AWS 限制小内存了吗?一直都是开放购买。某里云就不是,现在谁可以新开 256M 的 RDS ? 再说 OSS ,图片样式更换那一波,给开发者选型了吗?强硬改到 osss-style 格式下 还有快照数量,镜像数量,9 个九的承诺(这次应该是只剩下 99.9 )。 这次香港的事故你的私信收到通知了吗?有像 oneman 的 IDC 给你开个工单吐槽了吗?什么都没。尽量弱化,就是不承认错误。但是平时,推销的电话呢?一大堆。 关键时刻看技术,我觉得最简单的,买云就是买技术!某里云卖的营销,这一个点就是本质区别。 我并不是说阿里云不好,而是说,不要把它当做首选,特别是你有部分业务自研部分业务外包的情况下。 目前而言,国内就是腾讯云,百度云(真的要吹爆,实力可以,邻居不吵)都是要比某里云好太多的选择。 |
44
mytsing520 2022-12-26 18:17:24 +08:00
HK GOV 的数据中心专题页面,对于数据中心的选址、建设等都有要求。
这是一个总引导网页,涉及到不同的项目,如土地、建筑、电力、消防等,都有不同的专业部门负责跟进 https://www.datacentres.gov.hk 希望能有用 |
45
cctv1005s927 2022-12-26 21:20:35 +08:00
@lyhiving 感谢分享
|
46
cnpil0txia 2022-12-27 04:30:06 +08:00
原文“但影响了香港 Region ECS 管控服务( Control Plane )的正常使用”
应为 Control Panel |
47
realpg 2022-12-27 07:33:33 +08:00
香港机房 笑掉大牙
喷淋都算好的了 比狗窝 还是 80 年代内地农村狗窝条件还差的 IDC 机房,香港满天飞。。。 |
48
litbin 2022-12-27 09:45:38 +08:00
@cnpil0txia 这里 Control Plane 是指管控面,对应的还有 Data Plane 数据面
|
49
shenkai600 2022-12-27 11:34:53 +08:00
有无业内人士透露一下,机房里的这个喷淋设备是标配吗
|
50
ervqq 2022-12-27 16:37:41 +08:00
垃圾佬狂喜,一个机房的大船准备靠岸
|
51
cnpil0txia 2022-12-27 16:38:44 +08:00
@litbin 对的,谢谢
|
52
SQLException OP @shenkai600 基本都是干粉灭火器,着火了人必须出去,然后会 boom~
|