关于腾讯云事件“前沿数控技术生产数据完全丢失”的看法 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
mhycy
V2EX    程序员

关于腾讯云事件“前沿数控技术生产数据完全丢失”的看法

  •  
  •   mhycy 2018-08-06 23:22:25 +08:00 4569 次点击
    这是一个创建于 2653 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    这本是帖子「腾讯云的事,是不是很多人以为三副本就是备份,不应该丢数据,很靠谱....」的一个回复
    回复发出后自我感觉良好,遂稍作优化作为个人看法独立发帖,望各位大佬拍砖指正

    正文

    个人看法高可用的存储底层节点架构应符合以下准则
    1、应为非同批次、非同固件的等容量、等架构磁盘组建硬件 /软件 RAID
    2、应配合巡检定期校验数据是否可用,并尽早踢出异常磁盘
    3、存储节点自身应具有完善的警告预警机制
    4、三备份的集群架构应是基于此磁盘架构的冗余备份架构,无论是实时互备还是定时冷备

    一般云 VPS 服务的自动迁移依赖独立的磁盘柜与计算集群实现
    那么在腾讯的这个案例上,可能存在三台阵列柜、一套磁盘阵列网关与若干计算节点组成的计算机群
    丢失数据的范围为一个集群(假定整个集群都出现静默错误,且真的存在三备份架构)

    那么问题来了
    1、为什么现在只有一家公司发声?
    2、如果真的是三备份架构,为什么会三套存储设备同时故障?
    3、为何阵列损坏后没有任何警告、通知直接就是静默错误?

    假设现在的信息都为真实信息,没有人为修饰掩盖
    有以下推断:
    1、不存在三套设备互备的磁盘架构
    2、这个软件 BUG 不在硬盘而在软件分布式上面
    3、假设 2 推断为假,软件 BUG 位于磁盘,则阵列架设没有严格遵守高可用原则进行设计
    4、假设 2 推断为真,那么更有可能的情况是 BUG 位于阵列卡,数据位于单一母机,丢失范围为一台母机
    5、假设 2 推断为真,数据存在集群上面,且 BUG 位于自研的分布式存储平台上,那么...不多说了

    说实在,怎么想都想不出来为什么一个成熟的云平台能搞到数据全丢
    单个磁盘的静默损坏对于磁盘阵列的构建是必然需要考虑的问题
    ZFS 的设计就是为了抵御这类事情的发生
    甚至有点怀疑是不是有人手动 /某个自动化 BUG 的 "rm -rf" 了特定的虚拟机磁盘文件然后后续业务直接写花了集群
    这应该是可能性更高的情况

    补充看法

    也许很多人认为云服务就应该是绝对可靠,毕竟有许多业界大佬进行维护与开发。
    这想法没错,但是考虑到可能存在的风险,以及云服务商并不会提供底层架构的具体细节
    理应对云服务的安全性、可靠性有所保留,自行备份 /同步各项业务数据
    这是对业务的负责,也是一个技术人员专业性的表现。

    在现有的商用\家用宽带环境下,在众多开源隧道方案的加持下(重点推荐 ZeroTier )
    实时同步数据库数据到本地进行持续热备应不是难事(二进制日志远程写入)
    而业务数据,定期同步到别的地方所需要的磁盘空间以及带宽消耗也是可以接受的
    对公司的投入也仅仅是一个本地的磁盘柜以及相应的带宽投入而已。
    而下行带宽,显然是相当的便宜

    作为商业数据,数万元的本地硬件投入,采购二手平台甚至可以做到万元级投入
    这应该是可以接受的吧?

    10 条回复    2018-08-08 10:07:27 +08:00
    iConnect
        1
    iConnect  
       2018-08-07 06:29:41 +08:00 via Android
    拍不动,楼主分析很到位。虽然前沿数控方面太业余,但腾讯方面要么是公布的不是真相,要么就是有甩不掉的锅。

    (客户自己做不做备份是增强数据安全)云服务可以做的客户数据灰飞烟灭,毛都不剩,也是要点本事的。
    jaybing926
        2
    jaybing926  
       2018-08-07 10:12:46 +08:00
    如果他们的数据真有那么大价值,为啥自己不做备份,主从,HA ?
    会不会是打算讹钱跑路的?还是腾讯店大欺客?
    iConnect
        3
    iConnect  
       2018-08-07 10:36:35 +08:00
    @mhycy 假设腾讯云的官方回复属实:我们随即对固件版本有 bug 的硬盘全部进行下线处理,。。。
    碰巧阵列里部署的硬盘是同一型号,全都有 bug。但这样还是难解释为什么只有一家企业的数据丢了,难道其他的都已经被 tx 方私下了了?

    ![qcloud.jpg]( https://i.loli.net/2018/08/07/5b690475ac5d6.jpg)
    hpu423
        4
    hpu423  
       2018-08-07 11:49:23 +08:00
    别用腾讯云的服务,之前也是有一次事故说是 redis 服务器的硬盘坏了,另外多次出现网络抖动的事故,现在迁移到阿里云,省心多了
    neocanable
        5
    neocanable  
       2018-08-07 13:07:48 +08:00
    @jaybing926 一看你就是专门洗地的号。
    mhycy
        6
    mhycy  
    OP
       2018-08-07 13:47:06 +08:00
    @iConnect
    所以确实没想通。。。

    倒是因为这个事件围观各个帖子涨了不少存储领域的见识也算是有所收获
    ahjsrhj
        7
    ahjsrhj  
       2018-08-07 17:52:31 +08:00
    看了下新闻,三副本指的是数据盘三副本,这家公司数据放在购买时附赠的系统盘上了,所以是没有副本的
    这样理解对么
    ahjsrhj
        8
    ahjsrhj  
       2018-08-07 17:54:16 +08:00
    @iConnect #3 固件有 bug 不代表 bug 会触发啊,没有其它的声音可能是其它的都没有触发这个 bug
    nullornull
        9
    nullornull  
       2018-08-08 10:01:35 +08:00
    @mhycy 楼主,腾讯云给出了此次数据完整性受损的技术复盘,根据这个复盘,数据丢失的原因就是人为的了:
    https://mp.weixin.qq.com/s/8JSPY6vHPhg8pX0JwjqttQ
    mhycy
        10
    mhycy  
    OP
       2018-08-08 10:07:27 +08:00
    @nullornull
    这样的运维都能进腾讯。。。唉
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5246 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 08:58 PVG 16:58 LAX 00:58 JFK 03:58
    Do have faith in what you're doing.
    script src="http://www.v2ex.com/b/i/G2bFpDUoZW81vQi1rLuAhFed9nntmmlMzpOIXTV1B7GMgr8yOg4OYH071LUo0xP3hObrRo1W76U7TGWdC808nkDOMAZf7bu99nx-fmEAm__mjm3iCoHp8g4lFqIYZnkFa-lWOkZFiSggoByLem_BiK-0TCwgqt4Y0JT2EU71SpE="> ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86