前沿数控的云事故,是不是说明云并不安全? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
Felldeadbird
V2EX    云计算

前沿数控的云事故,是不是说明云并不安全?

  •  1
     
  •   Felldeadbird 2018-08-06 13:05:44 +08:00 7723 次点击
    这是一个创建于 2633 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天看新闻,腾讯云出事故了 https://www.cnbeta.com/articles/tech/754293.htm

    文中提到:这次故障中,“前沿数据”也表示目前没有任何本地本分数据用来恢复。

    按照字面理解,云上数据应该是很安全的,毕竟行业是这么吹的。从这个事故中,是否可以推断低几率事件的存在,云就肯定不安全呢?
    57 条回复    2018-08-08 19:51:27 +08:00
    ScotGu
        1
    ScotGu  
       2018-08-06 13:10:22 +08:00   1
    1.当 SLA 是什么?

    2.安全又不代表 100%。

    3.墨菲定律
    abcbuzhiming
        2
    abcbuzhiming  
       2018-08-06 13:12:04 +08:00
    楼主你没坏过硬盘吗,云上说白了不就是一堆物理主机装个虚拟机,凭什么更安全?
    所有的安全都是建立在冗余备份上的,云要是不备份,凭什么更安全呢?
    kulove
        3
    kulove  
       2018-08-06 13:14:28 +08:00
    什么都不安全。。
    但是,这些云不都有异地灾备的么?
    leokino
        4
    leokino  
       2018-08-06 13:17:31 +08:00
    看文章似乎并没有异地容灾。
    kera0a
        5
    kera0a  
       2018-08-06 13:22:27 +08:00 via iPhone
    期待云服务器能把备份也做好。
    云服务应该算一整套解决方案吧,这种基础性工作还得用户单独来做有点麻烦了

    这个例子就算用户备份好像数据也会丢,写进去后读出来是错的,自然备份也是错的吧
    opengps
        6
    opengps  
       2018-08-06 13:22:49 +08:00   2
    楼上别说远了,异地容灾似乎跟这个事件毫无关系。这家数控应该只是买台虚拟机而已,这么低的成本哪里包含异地容灾服务了
    coldear
        7
    coldear  
       2018-08-06 13:25:06 +08:00
    云服务条款里面 durability SLA 是多少?

    比如亚麻 s3 durability:
    "Amazon S3 Standard, S3 Standard IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss."

    没有达到就告呗
    coldear
        8
    coldear  
       2018-08-06 13:25:26 +08:00
    云服务条款里面 durability SLA 是多少?

    比如亚麻 s3 durability:
    "Amazon S3 Standard, S3 Standard IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss."

    没有达到就 gao 呗
    kulove
        9
    kulove  
       2018-08-06 13:28:18 +08:00
    @opengps 不要似乎, 也不要用应该,你就知道别人只是用的虚拟主机了?
    kulove
        10
    kulove  
       2018-08-06 13:29:40 +08:00   3
    @opengps 云硬盘( Cloud Block Storage,CBS )为您提供用于 CVM 的持久性数据块级存储服务。云硬盘中的数据自动地在可用区内以多副本冗余方式存储,避免数据的单点故障风险,提供高达 99.9999999% 的数据可靠性。
    这是官方的介绍,“云硬盘中的数据自动地在可用区内以多副本冗余方式存储”,这有什么好洗地的?
    nciyuan
        11
    nciyuan  
       2018-08-06 13:34:29 +08:00 via Android   1
    插个队
    ........腾讯云可特么奇葩呢
    网络质量奇葩的一比,白天的时候就在现在,刚才从 GitHub 上 clone,速度为数 KB/s。前几天从 Apache 基金会的 SVN 服务器 checkout,是大量的小文件,白天速度 10-20KB/s,还有从 IETF 的 rsync 服务器同步一些东西,小文件还行,感官比较快。大文件 30-40KB/s。
    你们有见过 8 个小时才下 1GB ?最后我终于熬到了夜里一点半,忍痛 Control + C,接着重新输入指令
    然后我感到的无形之中的风,非常凉爽
    Σ>—(〃°ω°〃)→
    网速好到不行,连连脱口而出-----爽
    看着 SSH 的网速每秒 100+KB/s,Grafana 监控(存在延迟)到服务器的带宽保持在 10+MB/s,百十 KB 级别小文件仍然能保持 3-7MB/s 的速度。
    在不到一个小时的时间内,近 20GB 左右的数据下载完了,内心
    (/)/~┴┴
    Felldeadbird
        12
    Felldeadbird  
    OP
       2018-08-06 13:49:35 +08:00
    @abcbuzhiming 云 不是表示 数据都有多重备份么。如果只是一组备份,那就不应该叫云了。我是这样理解的。
    Nobitasean
        13
    Nobitasean  
       2018-08-06 13:59:10 +08:00   2
    @Felldeadbird 云没有表示数据有多重备份,云的解释比较模糊
    gam2046
        14
    gam2046  
       2018-08-06 14:05:34 +08:00   1
    这个故事更说明了,不要什么东西老想着自己做。

    给别人做,出了问题能甩锅。自建,出了故障,到时候你怎么办?锅都没法甩啊。
    mhycy
        15
    mhycy  
       2018-08-06 14:06:52 +08:00   1
    吹归吹,好好了解下云平台的架构(特指云服务器平台)就会知道,那东西本质上就是一个虚拟机。
    问题来了:虚拟机的安全性与可靠性由什么来决定?

    归根结底还是对技术的不了解,对数据的不负责。
    maichael
        16
    maichael  
       2018-08-06 14:07:35 +08:00
    云再靠谱也不是 100%,何况还是不靠谱的居多。
    abcbuzhiming
        17
    abcbuzhiming  
       2018-08-06 14:08:27 +08:00   3
    @Felldeadbird 云从来没表示过有这种说法
    crab
        18
    crab  
       2018-08-06 14:11:08 +08:00
    @kulove 感觉异地容灾很多都是忽悠的,记得之前看到因为光纤被挖断最后也得老老实实等。
    imdong
        19
    imdong  
       2018-08-06 14:41:53 +08:00
    不要相信任何人与任何机构的承诺。
    真正重要的东西,就应该多重备份。
    在云上,丢了,云赔钱,数据没了。
    有些东西不是钱能买来的。
    jadec0der
        20
    jadec0der  
       2018-08-06 14:44:03 +08:00
    @kulove 腾讯云说的是「一块操作系统云盘」,我理解就是 VPS 的硬盘,不是云硬盘,也不存在多备的情况。
    kulove
        21
    kulove  
       2018-08-06 14:53:52 +08:00
    @jadec0der 买了云服务器,默认送了 20G 系统盘,但是这个系统盘是可以在云硬盘界面看到的。。
    bhaltair
        22
    bhaltair  
       2018-08-06 15:01:32 +08:00
    本地备份+1
    jadec0der
        23
    jadec0der  
       2018-08-06 15:03:14 +08:00
    @kulove 我看了一下腾讯云控制台,确实没有做区分,把系统盘和弹性盘都放在云硬盘里,但是我猜应该不是一样的东西。

    弹性盘是同可用区内都可以挂载的,机器和系统运行的机器不一定是同一台,可能是通过网络访问硬盘的。系统盘显然没有通过网络访问的道理。
    opengps
        24
    opengps  
       208-08-06 15:04:59 +08:00
    @kulove 仔细看下,云硬盘在可用地多副本,不是异地,异地容灾说的至少是跨城市级别,腾讯这个三副本只是同机房里存三份数据。类似于 raid1,至不过数量是 3,这三份是同时进行读写的
    isCyan
        25
    isCyan  
       2018-08-06 15:08:04 +08:00   1
    @jadec0der 系统盘也分类型的,现在云上大部分除了本地 SSD 都是云盘啊
    F281M6Dh8DXpD1g2
        26
    F281M6Dh8DXpD1g2  
       2018-08-06 15:08:21 +08:00
    说明以后不做备份的运维直接开除就行了
    opengps
        27
    opengps  
       2018-08-06 15:09:15 +08:00   2
    借楼解读下:(我也是被人问烦了,技术服务中,总有人问我阿里云有没有 vps,答案是没有!)
    VPS:单个物理服务器里的虚拟机(虚拟机硬盘往往用的是母鸡的硬件)
    云服务器:物理机集群里的虚拟机(虚拟机硬盘用的往往是共享存储的硬盘)
    假设物理机遇到硬盘故障,VPS 跟着母鸡一起死。云服务器可以自动漂移到其他母鸡上继续运行。所以云服务器的可用性就是高于 VPS 的
    kulove
        28
    kulove  
       2018-08-06 15:09:43 +08:00
    @jadec0der 如果没区分的话,认为有灾备的话没问题,毕竟说明页也没说不包括系统盘不是。

    @opengps 同机房的三份数据硬盘都坏了..也说不过去吧...
    MrCurly
        29
    MrCurly  
       2018-08-06 15:13:53 +08:00 via iPhone
    同意二楼,安全建立在冗余上,而云这个概念显然不包括冗余,冗余应该是为了云安全而使用的手段。
    YvesX
        30
    YvesX  
       2018-08-06 15:20:39 +08:00   3
    我就是冲着这些基础建设的服务购买各种云计算产品的。
    连容灾都要我自己做,怎么不让我自己部署机房备用网络呢?
    opengps
        31
    opengps  
       2018-08-06 15:21:15 +08:00
    @kulove 我也觉得不应该。按照目前腾讯给出的解释,是硬盘的写入读出不同,这个描述其实有点模糊,三副本毕竟都还是虚拟磁盘文件。
    虽然三个副本,正常情况下写入内容相同,但是底层存储由于是不同的物理底层,按理物理磁道说不会相同,可以排除掉是同一批硬盘同时触发这么一个极端情况。
    既然事实是同时坏三个副本的数据,那么问题应该归结于镜像存储的软件(软 raid 之类的底层软件),而不是归结给物理硬盘
    有存储届的朋友提过,这种情况不会是单个案例,应该还有其他同类情况出现没有被发现,可能是由于这样的原因,腾讯选择下架整个同批次硬盘
    lshero
        32
    lshero  
       2018-08-06 15:31:34 +08:00   2
    只能说明一些公司的产品经常进行虚假宣传

    https://azure.microsoft.com/zh-cn/features/resiliency/
    这样详细教育客户怎么构建高可用的业务才敢宣称 99.99%
    不知道某些云 99.9999999% 的数据可靠性是怎么算出来的
    Dragonish3600
        33
    Dragonish3600  
       2018-08-06 15:32:55 +08:00
    @YvesX 云只是给你一台虚拟机。。。和容灾没有关系啊。。像我们现在公司上云,所有的服务器全是 aws 一份,azure 一份,互相备份。。
    msg7086
        34
    msg7086  
       2018-08-06 15:58:20 +08:00
    云计算原本的定义是利用资源池有效地分配资源,方便地伸缩架构,可以用微小的工作( API 脚本等)完成资源的申请和释放。
    云这个概念本身就没有涉及到数据安全性,而且恰恰相反,云是利用伸缩架构来降低对可用性的要求的。
    比如 AWS 上,多个 EC2 节点,多个 LB 节点,分布在多个机房的多个可用区里,其中任何一个节点离线、重启,都不会影响业务正常运行,因为会自动 Failover 到其他节点去。所以对云计算来说,单个虚拟服务器挂掉是很寻常的事情。
    我司之前有一个 VPS 放在 AWS EC2 上,结果某一天登录上去发现机器被重启过了。也没有警报也没有通知什么的,他就给你重启了。道理很简单,厂家默认你有几十几百台机器一起跑,重启一台根本不会影响系统正常运行。至于你只有一台,那是你选错了产品罢了。

    之前看过一篇说 AWS 的文章,开头上来就是一句:如果你每个服务只开一台机器跑,那就别用 AWS (云计算)!

    最后再说一句,云计算是个市场营销术语,强行区分 VPS 和云服务器是没有意义的。VPS 是虚拟专用服务器的缩写。每一台云计算服务器本质上都是「虚拟的」「专用的」「服务器」,也就是 VPS。
    ryd994
        35
    ryd994  
       2018-08-06 16:18:25 +08:00 via Android   1
    @lshero 咳咳,其实 azure 的可用性比 AWS 略差
    这是内部自己承认的,sla 有满足,但是最后统计下来就是差一点
    当然,现在也在不停改进
    ryd994
        36
    ryd994  
       2018-08-06 16:29:06 +08:00 via Android
    @opengps “云服务器可以自动漂移到其他母鸡上继续运行”
    你说的是 live migration 么?
    技术上可行,实际上直接给你在另一台 host 上重启比较快
    你说的 host 硬盘故障问题不存在。因为计算节点和储存节点是分离的。计算节点不储存用户数据,通过网络挂载。本地 SSD 是有,但是本地 SSD 不保数据
    计算节点能故障啥?要么网络要么 CPU,这都不是可以热迁移的情况。唯一有用的就是如果要维护节点,可以把虚拟机迁移走再维护。但是其实现在都有在线升级的能力,必须关机维护的情况非常少(比如去年的 spectre 就是一例)。完全可以等用户自己业务需要关机的时候,逐步退役,最后再把剩下的全部重启一遍。反正 sla 只保 uptime,不保证不重启
    opengps
        37
    opengps  
       2018-08-06 16:48:03 +08:00
    @ry994 live migration 没听过。
    用过 VMware Vsphere 虚拟化平台的知道这个热迁移的意思。可能的故障太多,在小概率也是概率。比如你说计算节点故障不会有,但我轻松可以举反例说主机掉电。计算节点用的任何组件,电容可能击穿,电阻可能变化等等很多不太可能出现但是却一定有的反例。

    A 一般故障自动热迁移,(管理员经常手动热迁移下架某台物理服务器)
    B 部分无法实现热迁移的故障,会自动迁移后自动重启(为了保证业务不断,这里需要软件设计成跟随系统重启)
    C 极少数故障,迁移 cpu 内存资源之后不能重启(灾难级故障,普通人员遇到了无解,手动使用万能重启法解决)

    用我的分类 ABC,可以看出,可用性(用时长计算):
    A 足够解决时候是 100%(业务无中断)。
    B 方案解决时候是重启和恢复业务压力所需要的时间(业务中断几分钟)。
    C 类别则是人工排除掉故障所用的时间(往往是几小时到几天)
    night98
        38
    night98  
       2018-08-06 17:46:44 +08:00
    自动快照,应该是可以挽救大部分数据的。

    但是按照腾讯云给的说明,消费才 3K 多,应该是只有单服务器的价格消费,这样丢了所有数据,也是运气有点好。。
    huanxianghao
        40
    huanxianghao  
       2018-08-06 18:40:27 +08:00
    @YvesX #30 你这思路也是奇特。那是不是你买车,卖车的应该送你终生的保险?然后顺便给你配个司机?

    其实是可以包全套的,只要你给钱,钱给够了,什么都可以让别人给你做。
    woshipanghu
        41
    woshipanghu  
       2018-08-06 18:52:47 +08:00
    快照是最基础的服务
    能出这种事故技术多么的不成熟
    woshipanghu
        42
    woshipanghu  
       2018-08-06 18:54:00 +08:00
    丢个一两天的数据还能理解 全丢 这是什么骚操作
    princeofwales
        43
    princeofwales  
       2018-08-06 18:55:10 +08:00
    很简单,很多所谓的云,都是假云
    为什么很多大厂的磁盘 I/O 也只有 30、40MB/S,不是他们用不起 SSD,是因为你看到的盘,基本都是网络挂载的,多份冗余
    很多云的概念都被一些廉价的 VPS 混淆了,比如测速脚本里的 I/O 测试,好几百 M 好牛逼啊。人家只是一台物理机的物理硬盘,能做个 RAID10 已经是业界良心了,哪里搞得了商用级别的分布式存储。
    hugedata
        44
    hugedata  
       2018-08-07 09:02:46 +08:00
    @kulove 说明页写明了“不包含系统分区”了吗?
    kulove
        45
    kulove  
       2018-08-07 09:12:02 +08:00
    @hugedata 没看到,我的意思是包含系统盘。
    byuc
        46
    byuc  
       2018-08-07 10:19:44 +08:00
    出事情指责用户不备份,和指责被 qj 受害者穿着暴露其实是同一个概念。

    我花那么多钱上云,数据说没就没了。还不如自建。
    jusalun
        47
    jusalun  
       2018-08-07 10:43:10 +08:00
    并不是,主要是前沿数控买的是基础版 2G CDB,单节点+hadoop 备份( 3 副本就是这么来的)
    而腾讯的备份是物理备份,XtraBackup 压完后并不会进行有效性检测,如果出问题的就是这个节点磁盘,那么这时候备份实际上以及被污染了,副本备份系统 hadoop 拖走的全是无效备份。
    因此才出现了 3 备份同时 GG 的奇特场景
    图贴不上来
    https://www.zhihu.com/question/288640327/answer/462001581
    ucanuup
        48
    ucanuup  
       2018-08-07 11:47:57 +08:00
    这个样子,还不如搬瓦工咯。
    Admstor
        49
    Admstor  
       2018-08-07 11:55:01 +08:00
    以当事公司的技术能力,如果他们自建服务器,即使采用 RAID 阵列,也可能因为没有注意到警告信息,直到服务器彻底挂了才反应过来
    所以结果上来说大概也没啥差别

    不是给腾讯洗地
    腾讯这次的故障真是极为低级和优质,架构上肯定存在问题
    stevenhawking
        50
    stevenhawking  
       2018-08-07 12:59:12 +08:00
    当年盛大云因为不对用户负责就凉凉了
    jmk92
        51
    jmk92  
       2018-08-07 13:00:23 +08:00
    类似于阿里、腾讯的灾备,许多人相信,某一个地方出现故障了,自动就切换了。

    殊不知,其实是手动切
    qiuqiuer
        52
    qiuqiuer  
       2018-08-07 14:49:43 +08:00 via Android
    Raid+固定 ip,+不间断电源,弄个源码改改,5 年了,表示没处过事。
    ZE3kr
        53
    ZE3kr  
       2018-08-07 15:40:36 +08:00 via iPhone   2
    @lshero 可用率和数据可靠性不一样。比如 AWS S3 可用率为 99.9%,数据可靠性为 99.999999999%
    lshero
        54
    lshero  
       2018-08-07 15:50:22 +08:00 via Android
    @ZE3kr 两个不同层面的东西对比确实不妥
    webjin1
        55
    webjin1  
       2018-08-08 08:25:36 +08:00 via Android
    哈哈,便宜,快,安全。那是不可能的
    CommandZi
        56
    CommandZi  
       2018-08-08 16:40:20 +08:00
    http://tech.qq.com/a/20180808/013486.htm

    腾讯给出的故障过程复盘,操作程序正确的话,大概就不会是这个后果了。
    levenmode
        57
    levenmode  
       2018-08-08 19:51:27 +08:00
    最近我们也准备上云,挺想用腾讯云的,出了这个事情有点犹豫啊。有种之前一直裸奔的感觉,看来还是得给业务备份。完全靠云厂商的服务器不靠谱。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     976 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 19:29 PVG 03:29 LAX 12:29 JFK 15:29
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86