前沿数控的云事故，是不是说明云并不安全？

Felldeadbird · 2018-08-06T05:05:44Z

今天看新闻，腾讯云出事故了 https://www.cnbeta.com/articles/tech/754293.htm 文中提到：这次故障中，“前沿数据”也表示目前没有任何本地本分数据用来恢复。按照字面理解，云上数据应该是很安全的，毕竟行业是这么吹的。从这个事故中，是否可以推断低几率事件的存在，云就肯定不安全呢？

事故

前沿

安全

本分

57 replies • 2018-08-08 19:51:27 +08:00

1

ScotGu

Aug 6, 2018

1

1.当 SLA 是什么？

2.安全又不代表 100%。

3.墨菲定律

2

abcbuzhiming

Aug 6, 2018

楼主你没坏过硬盘吗，云上说白了不就是一堆物理主机装个虚拟机，凭什么更安全？
所有的安全都是建立在冗余备份上的，云要是不备份，凭什么更安全呢？

3

kulove

Aug 6, 2018

什么都不安全。。
但是，这些云不都有异地灾备的么？

4

leokino

Aug 6, 2018

看文章似乎并没有异地容灾。

5

kera0a

Aug 6, 2018 via iPhone

期待云服务器能把备份也做好。
云服务应该算一整套解决方案吧，这种基础性工作还得用户单独来做有点麻烦了

这个例子就算用户备份好像数据也会丢，写进去后读出来是错的，自然备份也是错的吧

6

opengps

Aug 6, 2018

2

楼上别说远了，异地容灾似乎跟这个事件毫无关系。这家数控应该只是买台虚拟机而已，这么低的成本哪里包含异地容灾服务了

7

coldear

Aug 6, 2018

云服务条款里面 durability SLA 是多少？

比如亚麻 s3 durability:
"Amazon S3 Standard, S3 Standard – IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss."

没有达到就告呗

8

coldear

Aug 6, 2018

云服务条款里面 durability SLA 是多少？

比如亚麻 s3 durability:
"Amazon S3 Standard, S3 Standard – IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss."

没有达到就 gao 呗

9

kulove

Aug 6, 2018

@opengps 不要似乎，也不要用应该，你就知道别人只是用的虚拟主机了？

10

kulove

Aug 6, 2018

3

@opengps 云硬盘（ Cloud Block Storage，CBS ）为您提供用于 CVM 的持久性数据块级存储服务。云硬盘中的数据自动地在可用区内以多副本冗余方式存储，避免数据的单点故障风险，提供高达 99.9999999% 的数据可靠性。
这是官方的介绍，“云硬盘中的数据自动地在可用区内以多副本冗余方式存储”，这有什么好洗地的？

11

nciyuan

Aug 6, 2018 via Android

1

插个队
........腾讯云可特么奇葩呢
网络质量奇葩的一比，白天的时候就在现在，刚才从 GitHub 上 clone，速度为数 KB/s。前几天从 Apache 基金会的 SVN 服务器 checkout，是大量的小文件，白天速度 10-20KB/s，还有从 IETF 的 rsync 服务器同步一些东西，小文件还行，感官比较快。大文件 30-40KB/s。
你们有见过 8 个小时才下 1GB ？最后我终于熬到了夜里一点半，忍痛 Control + C，接着重新输入指令
然后我感到的无形之中的风，非常凉爽
Σ>―(〃°ω°〃)♡→
网速好到不行，连连脱口而出-----爽
看着 SSH 的网速每秒 100+KB/s，Grafana 监控(存在延迟)到服务器的带宽保持在 10+MB/s，百十 KB 级别小文件仍然能保持 3-7MB/s 的速度。
在不到一个小时的时间内，近 20GB 左右的数据下载完了，内心
(/≧▽≦)/~┴┴

12

Felldeadbird

OP

Aug 6, 2018

@abcbuzhiming 云不是表示数据都有多重备份么。如果只是一组备份，那就不应该叫云了。我是这样理解的。

13

Nobitasean

Aug 6, 2018

2

@Felldeadbird 云没有表示数据有多重备份，云的解释比较模糊

14

ntdll

Aug 6, 2018

1

这个故事更说明了，不要什么东西老想着自己做。

给别人做，出了问题能甩锅。自建，出了故障，到时候你怎么办？锅都没法甩啊。

15

mhycy

Aug 6, 2018

1

吹归吹，好好了解下云平台的架构（特指云服务器平台）就会知道，那东西本质上就是一个虚拟机。
问题来了：虚拟机的安全性与可靠性由什么来决定？

归根结底还是对技术的不了解，对数据的不负责。

16

maichael

Aug 6, 2018

云再靠谱也不是 100%，何况还是不靠谱的居多。

17

abcbuzhiming

Aug 6, 2018

3

@Felldeadbird 云从来没表示过有这种说法

18

crab

Aug 6, 2018

@kulove 感觉异地容灾很多都是忽悠的，记得之前看到因为光纤被挖断最后也得老老实实等。

19

imdong

Aug 6, 2018

不要相信任何人与任何机构的承诺。
真正重要的东西，就应该多重备份。
在云上，丢了，云赔钱，数据没了。
有些东西不是钱能买来的。

20

jadec0der

Aug 6, 2018

@kulove 腾讯云说的是「一块操作系统云盘」，我理解就是 VPS 的硬盘，不是云硬盘，也不存在多备的情况。

21

kulove

Aug 6, 2018

@jadec0der 买了云服务器，默认送了 20G 系统盘，但是这个系统盘是可以在云硬盘界面看到的。。

22

bhaltair

Aug 6, 2018

本地备份+1

23

jadec0der

Aug 6, 2018

@kulove 我看了一下腾讯云控制台，确实没有做区分，把系统盘和弹性盘都放在云硬盘里，但是我猜应该不是一样的东西。

弹性盘是同可用区内都可以挂载的，机器和系统运行的机器不一定是同一台，可能是通过网络访问硬盘的。系统盘显然没有通过网络访问的道理。

24

opengps

Aug 6, 2018

@kulove 仔细看下，云硬盘在可用地多副本，不是异地，异地容灾说的至少是跨城市级别，腾讯这个三副本只是同机房里存三份数据。类似于 raid1，至不过数量是 3，这三份是同时进行读写的

25

isCyan

Aug 6, 2018

1

@jadec0der 系统盘也分类型的，现在云上大部分除了本地 SSD 都是云盘啊

26

F281M6Dh8DXpD1g2

Aug 6, 2018

说明以后不做备份的运维直接开除就行了

27

opengps

Aug 6, 2018

2

借楼解读下：（我也是被人问烦了，技术服务中，总有人问我阿里云有没有 vps，答案是没有！）
VPS：单个物理服务器里的虚拟机（虚拟机硬盘往往用的是母鸡的硬件）
云服务器：物理机集群里的虚拟机（虚拟机硬盘用的往往是共享存储的硬盘）
假设物理机遇到硬盘故障，VPS 跟着母鸡一起死。云服务器可以自动漂移到其他母鸡上继续运行。所以云服务器的可用性就是高于 VPS 的

28

kulove

Aug 6, 2018

@jadec0der 如果没区分的话，认为有灾备的话没问题，毕竟说明页也没说不包括系统盘不是。

@opengps 同机房的三份数据硬盘都坏了..也说不过去吧...

29

MrCurly

Aug 6, 2018 via iPhone

同意二楼，安全建立在冗余上，而云这个概念显然不包括冗余，冗余应该是为了云安全而使用的手段。

30

YvesX

Aug 6, 2018

3

我就是冲着这些基础建设的服务购买各种云计算产品的。
连容灾都要我自己做，怎么不让我自己部署机房备用网络呢？

31

opengps

Aug 6, 2018

@kulove 我也觉得不应该。按照目前腾讯给出的解释，是硬盘的写入读出不同，这个描述其实有点模糊，三副本毕竟都还是虚拟磁盘文件。
虽然三个副本，正常情况下写入内容相同，但是底层存储由于是不同的物理底层，按理物理磁道说不会相同，可以排除掉是同一批硬盘同时触发这么一个极端情况。
既然事实是同时坏三个副本的数据，那么问题应该归结于镜像存储的软件（软 raid 之类的底层软件），而不是归结给物理硬盘
有存储届的朋友提过，这种情况不会是单个案例，应该还有其他同类情况出现没有被发现，可能是由于这样的原因，腾讯选择下架整个同批次硬盘

32

lshero

Aug 6, 2018

2

只能说明一些公司的产品经常进行虚假宣传

https://azure.microsoft.com/zh-cn/features/resiliency/
这样详细教育客户怎么构建高可用的业务才敢宣称 99.99%
不知道某些云 99.9999999% 的数据可靠性是怎么算出来的

33

Dragonish3600

Aug 6, 2018

@YvesX 云只是给你一台虚拟机。。。和容灾没有关系啊。。像我们现在公司上云，所有的服务器全是 aws 一份，azure 一份，互相备份。。

34

msg7086

Aug 6, 2018

云计算原本的定义是利用资源池有效地分配资源，方便地伸缩架构，可以用微小的工作（ API 脚本等）完成资源的申请和释放。
云这个概念本身就没有涉及到数据安全性，而且恰恰相反，云是利用伸缩架构来降低对可用性的要求的。
比如 AWS 上，多个 EC2 节点，多个 LB 节点，分布在多个机房的多个可用区里，其中任何一个节点离线、重启，都不会影响业务正常运行，因为会自动 Failover 到其他节点去。所以对云计算来说，单个虚拟服务器挂掉是很寻常的事情。
我司之前有一个 VPS 放在 AWS EC2 上，结果某一天登录上去发现机器被重启过了。也没有警报也没有通知什么的，他就给你重启了。道理很简单，厂家默认你有几十几百台机器一起跑，重启一台根本不会影响系统正常运行。至于你只有一台，那是你选错了产品罢了。

之前看过一篇说 AWS 的文章，开头上来就是一句：如果你每个服务只开一台机器跑，那就别用 AWS （云计算）！

最后再说一句，云计算是个市场营销术语，强行区分 VPS 和云服务器是没有意义的。VPS 是虚拟专用服务器的缩写。每一台云计算服务器本质上都是「虚拟的」「专用的」「服务器」，也就是 VPS。

35

ryd994

Aug 6, 2018 via Android

1

@lshero 咳咳，其实 azure 的可用性比 AWS 略差
这是内部自己承认的，sla 有满足，但是最后统计下来就是差一点
当然，现在也在不停改进

36

ryd994

Aug 6, 2018 via Android

@opengps “云服务器可以自动漂移到其他母鸡上继续运行”
你说的是 live migration 么？
技术上可行，实际上直接给你在另一台 host 上重启比较快
你说的 host 硬盘故障问题不存在。因为计算节点和储存节点是分离的。计算节点不储存用户数据，通过网络挂载。本地 SSD 是有，但是本地 SSD 不保数据
计算节点能故障啥？要么网络要么 CPU，这都不是可以热迁移的情况。唯一有用的就是如果要维护节点，可以把虚拟机迁移走再维护。但是其实现在都有在线升级的能力，必须关机维护的情况非常少（比如去年的 spectre 就是一例）。完全可以等用户自己业务需要关机的时候，逐步退役，最后再把剩下的全部重启一遍。反正 sla 只保 uptime，不保证不重启

37

opengps

Aug 6, 2018

@ryd994 live migration 没听过。
用过 VMware Vsphere 虚拟化平台的知道这个热迁移的意思。可能的故障太多，在小概率也是概率。比如你说计算节点故障不会有，但我轻松可以举反例说主机掉电。计算节点用的任何组件，电容可能击穿，电阻可能变化等等很多不太可能出现但是却一定有的反例。

A 一般故障自动热迁移，（管理员经常手动热迁移下架某台物理服务器）
B 部分无法实现热迁移的故障，会自动迁移后自动重启（为了保证业务不断，这里需要软件设计成跟随系统重启）
C 极少数故障，迁移 cpu 内存资源之后不能重启（灾难级故障，普通人员遇到了无解，手动使用万能重启法解决）

用我的分类 ABC，可以看出，可用性（用时长计算）：
A 足够解决时候是 100%（业务无中断）。
B 方案解决时候是重启和恢复业务压力所需要的时间（业务中断几分钟）。
C 类别则是人工排除掉故障所用的时间（往往是几小时到几天）

38

night98

Aug 6, 2018

自动快照，应该是可以挽救大部分数据的。

但是按照腾讯云给的说明，消费才 3K 多，应该是只有单服务器的价格消费，这样丢了所有数据，也是运气有点好。。

40

huanxianghao

Aug 6, 2018

@YvesX #30 你这思路也是奇特。那是不是你买车，卖车的应该送你终生的保险？然后顺便给你配个司机？

其实是可以包全套的，只要你给钱，钱给够了，什么都可以让别人给你做。

41

woshipanghu

Aug 6, 2018

快照是最基础的服务
能出这种事故技术多么的不成熟

42

woshipanghu

Aug 6, 2018

丢个一两天的数据还能理解全丢这是什么骚操作

43

princeofwales

Aug 6, 2018

很简单，很多所谓的云，都是假云
为什么很多大厂的磁盘 I/O 也只有 30、40MB/S，不是他们用不起 SSD，是因为你看到的盘，基本都是网络挂载的，多份冗余
很多云的概念都被一些廉价的 VPS 混淆了，比如测速脚本里的 I/O 测试，好几百 M 好牛逼啊。人家只是一台物理机的物理硬盘，能做个 RAID10 已经是业界良心了，哪里搞得了商用级别的分布式存储。

44

hugedata

Aug 7, 2018

@kulove 说明页写明了“不包含系统分区”了吗？

45

kulove

Aug 7, 2018

@hugedata 没看到，我的意思是包含系统盘。

46

byuc

Aug 7, 2018

出事情指责用户不备份，和指责被 qj 受害者穿着暴露其实是同一个概念。

我花那么多钱上云，数据说没就没了。还不如自建。

47

jusalun

Aug 7, 2018

并不是，主要是前沿数控买的是基础版 2G CDB，单节点+hadoop 备份（ 3 副本就是这么来的）
而腾讯的备份是物理备份，XtraBackup 压完后并不会进行有效性检测，如果出问题的就是这个节点磁盘，那么这时候备份实际上以及被污染了，副本备份系统 hadoop 拖走的全是无效备份。
因此才出现了 3 备份同时 GG 的奇特场景
图贴不上来
https://www.zhihu.com/question/288640327/answer/462001581