下厨房 6 月 26 日数据丢失事故总结 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
eric
V2EX    DevOps

下厨房 6 月 26 日数据丢失事故总结

  •  
  •   eric 2013-07-03 13:22:59 +08:00 8224 次点击
    这是一个创建于 4557 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 备份节点因故下线长达两个月,一直没有重新启用;
    2. 使用 rm -f 删除备份节点文件,5 分钟后才发现进错了机器……

    全文在这里: http://tech.xiachufang.com/?p=18
    24 条回复    1970-01-01 08:00:00 +08:00
    lichao
        1
    lichao  
       2013-07-03 13:24:55 +08:00
    我不止一次 shutdown -h 0 然后发现是在服务器上
    eric
        2
    eric  
    OP
       2013-07-03 13:29:01 +08:00
    @lichao 我也试过。后来我给所有生产环境上机器的 PS1 都换了个颜色
    wang2191195
        3
    wang2191195  
       2013-07-03 13:34:19 +08:00 via iPhone
    那个员工怎么样了=_=
    thinkxen
        4
    thinkxen  
       2013-07-03 14:06:07 +08:00 via Android
    我了个去啊~
    Ricepig
        5
    Ricepig  
       2013-07-04 00:31:11 +08:00 via iPhone
    有人发现吗?在这个案例里,信息产业部下属公司数据恢复能力强于阿里巴巴dba团队出来创业的沃趣科技
    skydiver
        6
    skydiver  
       2013-07-04 02:16:05 +08:00 via Android
    @Ricepig 他们两个公司干的不是一个事情。
    kennedy32
        7
    kennedy32  
       2013-07-04 02:16:35 +08:00
    每个这种事故,都有因故没有备份数据库的事件出现
    相似的错误造成一次又一次事故
    master
        8
    master  
       2013-07-04 03:51:40 +08:00
    虽然说操作失误千不该万不该,但最后暴露出来的还是对运维的不重视
    所以这大概是国内很普遍的情况吧,技术团队兼作运维,
    所以因为还有研发的工作在,所以运维的方面即使明知有疏忽,
    还是被一再拖延,直到操作失误才发现没有后悔药
    master
        9
    master  
       2013-07-04 04:02:08 +08:00
    @Ricepig
    觉得对于这个问题讨论公司人员背景好像意义不太大,
    毕竟是误删磁盘数据的恢复工作,这个肯定还是以做数据恢复为主业的公司更擅长一些
    沃趣的关注点毕竟还是放在运维,虽然说删磁盘这种事也算是运维故障
    TonyLiu2ca
        10
    TonyLiu2ca  
       2013-07-04 05:29:36 +08:00
    测试环境很重要吧,生产环境的改变之前要有测试计划吧,测试之后要有升级脚本吧。
    jason52
        11
    jason52  
       2013-07-04 08:49:28 +08:00
    看看那个数据恢复公司成功恢复的案例,令人大吃一惊啊,什么医院,银行等单位运维都是蛮重要的啊
    Ricepig
        12
    Ricepig  
       2013-07-04 08:56:52 +08:00 via iPhone
    @skydiver 哪不同了?
    breeswish
        13
    breeswish  
       2013-07-04 09:25:24 +08:00
    @Ricepig 做的事情是一样的,但是后面一个毕竟是专业做数据恢复的,这跟阿里那个以运维为主的不能比的嘛= =
    sykp241095
        14
    sykp241095  
       2013-07-04 09:53:05 +08:00
    这次下厨房发生了这个事故后,我特意注册了一个 shutdown.sh 域名,请问各位这个域名可以用来做什么。。
    firsthym
        15
    firsthym  
       2013-07-04 10:07:00 +08:00
    深刻的教训
    julyclyde
        16
    julyclyde  
       2013-07-04 10:10:40 +08:00
    @master 我觉得就是人员背景问题。你说的对,初创企业对运维不够重视
    skydiver
        17
    skydiver  
       2013-07-04 10:13:29 +08:00
    @Ricepig 一个是硬盘数据恢复公司,一个是数据库专业服务公司。
    laogui
        18
    laogui  
       2013-07-04 11:29:32 +08:00   1
    那个员工怎么样了?有没有被杀害?
    laogui
        19
    laogui  
       2013-07-04 11:37:01 +08:00
    看了这个过程感觉技术好牛X,从硬盘修复中、从内存中、从memcache中、从binlog中、从搜索引擎的快照中。从这几种东西里提取了一堆不完整的数据你们竟然最后可以搞一块去。太佩服你们的技术了。
    apptao
        20
    apptao  
       2013-07-04 12:18:20 +08:00
    @lichao 我也是, 后来我把服务器上的shutdown都改名了.
    clowwindy
        21
    clowwindy  
       2013-07-04 13:13:25 +08:00
    rm -rf 之后文件名没有了,但 MySQL 还在运行,文件没有删除。这时候可以连接 MySQL dump 数据。
    fkccp
        22
    fkccp  
       2013-07-04 19:53:35 +08:00
    @eric
    @apptao
    弱弱问下,你们为啥不改自己的
    cloudzhou
        23
    cloudzhou  
       2013-07-04 20:48:59 +08:00
    @clowwindy 是的,这是很关键的一步,应该文件在所有句柄释放之后进程才真的找不到它,如果是单一的一个文件,是可以 dump 出数据的
    manoon
        24
    manoon  
       2013-07-04 21:33:26 +08:00 via Android
    这个可以发给领导看一下, 数据的重要性. . . .
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4595 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 62ms UTC 01:06 PVG 09:06 LAX 17:06 JFK 20:06
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86