网易云官方回复说因为业务扩容出现了技术事故,好奇仅仅扩容怎么造成这么大范围事故的,主站都寄了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
tmtstudio
V2EX    程序员

网易云官方回复说因为业务扩容出现了技术事故,好奇仅仅扩容怎么造成这么大范围事故的,主站都寄了

  •  
  •   tmtstudio 2024-08-19 23:17:13 +08:00 8508 次点击
    这是一个创建于 418 天前的主题,其中的信息可能已经有所发展或是发生改变。

    b61283221d437e067ec681e23ba7f37a.jpeg

    31 条回复    2024-08-20 18:25:13 +08:00
    rc5ayc
        1
    rc5ayc  
       2024-08-20 01:56:52 +08:00   1
    他们把大部分都整体迁移到贵州,属于大迁移,而不是仅仅扩容
    tmtstudio
        2
    tmtstudio  
    OP
       2024-08-20 07:43:08 +08:00 via iPhone
    @rc5ayc 迁移上半年就完成了吧
    ExplodingDragon
        3
    ExplodingDragon  
       2024-08-20 08:39:28 +08:00
    @tmtstudio 八成是迁移完了文档没更新
    SenLief
        4
    SenLief  
       2024-08-20 08:44:28 +08:00
    扩容只是随便编个理由吧
    itechnology
        5
    itechnology  
       2024-08-20 08:57:51 +08:00
    这个图是假的吧,都没有找到这条微博。人家说的是:“大家好,没有删库,没有跑路,故障已陆续修复~
    作为补偿,8 月 20 日 0-24 时,云音乐搜“畅听音乐”,可领取 7 天会员权益到您的账户(具体规则请见活动页面)
    抱歉必须再说一遍,请您息怒~”
    Mianmiss
        6
    Mianmiss  
       2024-08-20 09:10:48 +08:00
    @itechnology 这明显是微博评论
    cuttlefish
        7
    cuttlefish  
       2024-08-20 09:27:59 +08:00
    是真的,我领到了
    aarong
        8
    aarong  
       2024-08-20 09:29:15 +08:00
    总要有个由头来背锅
    opengps
        10
    opengps  
       2024-08-20 09:37:24 +08:00
    大家都是做技术的,任何操作都能带来失败风险这应该是常识。最安全的做法应该是“护网”,非紧急 bug 不调整任何逻辑
    liaohongxing
        11
    liaohongxing  
       2024-08-20 09:43:42 +08:00
    扩容 坑定是不可能的, 魔兽官网 ,网易云 ,网易主站 全都挂 。至于搞成这样子
    starrys
        12
    starrys  
       2024-08-20 09:44:49 +08:00
    不会是看黑马喽太火了想抢热度吧
    EndlessMemory
        13
    EndlessMemory  
       2024-08-20 10:04:34 +08:00
    这就不知道了
    mightybruce
        14
    mightybruce  
       2024-08-20 10:31:23 +08:00
    出现失败风险当然是有的, 据说存储对接出了问题,https://finance.eastmoney.com/a/202408193159519884.html
    裁员裁到了基础设施团队,好了,存储挂了就不是一个服务出问题,多个服务都会访问出问题,
    总体来说, 几个小时能恢复,可用性降到 3 个 9
    CodeCodeStudy
        15
    CodeCodeStudy  
       2024-08-20 10:43:43 +08:00
    @rc5ayc #1 为什么要迁移到贵州?有什么好处吗?
    106npo
        16
    106npo  
       2024-08-20 10:46:32 +08:00 via Android
    @CodeCodeStudy 便宜吧
    zdkk
        17
    zdkk  
       2024-08-20 10:56:21 +08:00
    为啥不放到凌晨搞,非要在下午高峰期搞事情
    815979670
        18
    815979670  
       2024-08-20 10:57:32 +08:00
    这种操作不都半夜进行吗 为什么要 白天迁移
    mightybruce
        19
    mightybruce  
       2024-08-20 10:59:18 +08:00
    机房都是在贵州、西北这些地方, 电费便宜,机房维护成本也低,光机房需要大量散热的空调降温费用就是不小开支其次,离发电电网近。
    28Sv0ngQfIE7Yloe
        20
    28Sv0ngQfIE7Yloe  
       2024-08-20 11:01:19 +08:00
    @zdkk

    如果真是扩容引起的,那么高峰扩容很正常啊
    swLoXtOtd89pGg8t
        21
    swLoXtOtd89pGg8t  
       2024-08-20 11:16:47 +08:00
    @zdkk #17 凌晨要睡觉、、
    810244966
        22
    810244966  
       2024-08-20 11:27:36 +08:00
    之前在掘金看到说网易云音乐整体搬迁到贵州去,不知道是不是这个过程中出现的偏差 https://juejin.cn/post/7389952004791894016
    holyliao
        23
    holyliao  
       2024-08-20 14:20:58 +08:00   2
    @zdkk 网抑云晚上可是使用高峰
    Emiya1208
        24
    Emiya1208  
       2024-08-20 14:25:49 +08:00   1
    没什么不可能的,扩容又没指定怎么扩容,auth 或是 很基础的服务,跨区扩容就要涉及网络变动,网络变动嘛,一条错误的路由就能干废整个集群,甚至要是有人写错了 ip 地址冲突了,直接能让某些正常服务跟着一块儿挂掉。
    kneo
        25
    kneo  
       2024-08-20 15:07:21 +08:00 via Android   1
    @Emiya1208 哈哈,那些动不动就说“不可能”的,干活是最不靠谱的,大坑一般都是这种人搞出来的。
    Jinnrry
        26
    Jinnrry  
       2024-08-20 15:42:25 +08:00
    @Emiya1208 写错一条 ip 地址,干废整个集群这事我干过。当年直接让全公司所有业务挂了几分钟,还好我回滚及时。不过刚好是下班时间,全公司研发都回来看了一个小时监控
    iovekkk
        27
    iovekkk  
       2024-08-20 15:50:34 +08:00
    昨天有一个内部员工的聊天记录传了出来(不知道真假),说的是大幅裁员导致云储存部门就剩一个人了,然后那个人按着交接文档操作,然后操作出了这个事故出来
    tinycold
        28
    tinycold  
       2024-08-20 17:33:34 +08:00
    @iovekkk 好了,现在一个人也剩不了了。/doge
    Emiya1208
        29
    Emiya1208  
       2024-08-20 18:22:25 +08:00
    @iovekkk 剩一个人是有可能的 @tinycold 但是只要不是这个人故意搞的事儿,他是不会被裁的,甚至他想走都走不了的。
    Emiya1208
        30
    Emiya1208  
       2024-08-20 18:23:58 +08:00
    @Jinnrry 正常,我也不小心把 long 写成 nong 过,搞了几分钟故障。不过我发现的比较快,而且相关服务不是基础性的,只是上层的。
    brom111
        31
    brom111  
       2024-08-20 18:25:13 +08:00
    @iovekkk 主要是昨天那个页面看起来 不像是云存储部门有问题吗。 前面入口层面也没做什么紧急处理的样子。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1616 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 16:24 PVG 00:24 LAX 09:24 JFK 12:24
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86