晚上业务报警,老哥们咋处理 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fishofcat
V2EX    DevOps

晚上业务报警,老哥们咋处理

  •  
  •   fishofcat 2020-06-15 14:16:22 +08:00 8179 次点击
    这是一个创建于 1944 天前的主题,其中的信息可能已经有所发展或是发生改变。

    老哥们,作为程序员,业务晚上会报警,自己一个人还好,影响家里人休息,大家咋处理的。

    39 条回复    2022-06-23 19:28:49 +08:00
    johnchshen
        1
    johnchshen  
       2020-06-15 14:23:51 +08:00 via Android
    电脑、资料不在身边,麻烦分析日志、服务器状态。编写 bug 报告。方便次日分析处理。
    要求在测试环境重现。要重新步骤手册,图文兼顾那种。
    bug 报告模板可以在网上找,要求越高越好,越适合重现问题那种越好。

    多来几次,业务就会自己分析问题和初步处理了。
    jinhan13789991
        2
    jinhan13789991  
       2020-06-15 14:30:23 +08:00 via Android   1
    手机开飞行模式
    keepeye
        3
    keepeye  
       2020-06-15 14:39:14 +08:00   1
    1.真有紧急情况还是要处理的,如果是你负责的。
    2.不应当经常出现此类情况,应当努力避免发生。
    sonice
        4
    sonice  
       2020-06-15 15:52:49 +08:00
    告警也是有级别划分的啊,有人给打电话过来了就可以起床弄了,否则当没看见。
    cubecube
        5
    cubecube  
       2020-06-15 15:58:04 +08:00 via Android
    曾经,在某银行负责重要系统,几乎每天晚上告警,会被打电话叫起来,开机远程过去解决问题,半小时到一小时不等。
    晚上八点多还打卡,干了半年,精神状态都不好了,离职了。
    wujieyuan
        6
    wujieyuan  
       2020-06-15 16:00:13 +08:00
    自己的负责的任务当然得尽快处理,特别是紧急的事情
    cubecube
        7
    cubecube  
       2020-06-15 16:01:00 +08:00
    @cubecube 写错了,是早上八点多还要刷脸。
    tfdetang
        8
    tfdetang  
       2020-06-15 16:13:42 +08:00
    @cubecube 握手,也弄过这样的项目,晚上要和清算所对账,一开始总有各种各样问题,对不上。 头一个月每天晚上 4-5 点都要被拉起来解决问题,然后早上还要去上班。 虽然一个月后基本就稳定了,不过很长一段时间都养成了一到对账的点就醒的习惯
    cubecube
        9
    cubecube  
       2020-06-15 16:41:05 +08:00
    @tfdetang 情况还不完全一样,系统管理和开发管理分离。开发经理带着一群外包不断挖坑,问题没办法收敛,心累
    luckyrayyy
        10
    luckyrayyy  
       2020-06-15 16:41:55 +08:00
    你要是问我,我肯定回答爬起来修复啊!!!

    当然实际上我静音了,听不见。
    chenmobuys
        11
    chenmobuys  
       2020-06-15 16:44:15 +08:00
    手机静音
    wzq001
        12
    wzq001  
       2020-06-15 17:03:03 +08:00
    @cubecube 关键在于还会有新坑出现,不可一直晚上救火啊!天大的事儿,第二天再说,让他长长记性,如果你这样一直加班搞,他会觉得理所应当,反正有人填坑~~~

    PS:开发经理肯定有外包回扣的,所以,如果他分比例给你的话,也可以考虑,没利益,干毛线
    NauxLiu
        13
    NauxLiu  
       2020-06-15 17:16:56 +08:00   1
    1. 给 alert 分优先级,比如 P1 是即使晚上也需要起床紧急修复的。P2/P3 等是只有邮件或 IM 通知,可以第二天再修复。
    2. 轮班制,如果不是小公司,比如你们部门只有你一个人。那应该上轮班制度,大概每个人负责一周这样。

    我们公司用的 Opsgenie,可以和各个平台集成,设置消息优先级和通知渠道,以及设定规则自动轮班。
    fishofcat
        14
    fishofcat  
    OP
       2020-06-15 17:32:48 +08:00
    大佬们,说的对。第一没啥测试,第二没啥 backup 。静音的话没人处理了就。。。。。
    cw2k13as
        15
    cw2k13as  
       2020-06-15 17:49:08 +08:00
    当没看见,一律上班处理 2333
    imbushuo
        16
    imbushuo  
       2020-06-15 19:13:08 +08:00 via iPhone   2
    贵司 Ops 没自动化的么(

    - 能采取自动措施的就自动解决,如果自动解决失败就 escalate 到 oncall DRI
    - 多地运行,每个 region 内再分 shard,如果只是区域性问题的话就把所有 traffic 迁移到下一个可用区域,然后等到上班了再来处理
    - Oncall 有 Primary 和 Secondary,多人一起备份
    - 印度 /Sunnyvale/NYC 多个组一起 oncall shift,这样大家都能睡觉
    fishofcat
        17
    fishofcat  
    OP
       2020-06-15 19:48:12 +08:00
    @imbushuo 你懂得。。。自动化做的那叫一个烂
    threeEggs123
        18
    threeEggs123  
       2020-06-15 21:55:39 +08:00 via Android   1
    同事,oncall,关机没接,传到了上级领导,领导没接,最后打到了 VP 头上。同事直接被干掉。
    AngryPanda
        19
    AngryPanda  
       2020-06-15 22:53:51 +08:00 via Android
    手环可以不呢
    gitJavascript
        20
    gitJavascript  
       2020-06-15 22:59:00 +08:00
    暂停告警
    shuangya
        21
    shuangya  
       2020-06-15 23:18:02 +08:00 via Android
    晚上告警当然还是要处理的。
    但经常告警,那你就得分析分析怎么回事了。该优化代码优化,该加机器就加。这不是一个应该有的现象。
    Mac
        22
    Mac  
       2020-06-15 23:23:08 +08:00 via Android
    手环
    levelworm
        23
    levelworm  
       2020-06-15 23:30:31 +08:00
    @threeEggs123 这公司不呆也蛮好的。。。
    Tonara
        24
    Tonara  
       2020-06-15 23:42:12 +08:00
    一路 ack 上去
    vanityfairn
        25
    vanityfairn  
       2020-06-16 00:51:30 +08:00
    提高报警阈值,手动狗头~ 这样就看不到报警了
    d0v0b
        26
    d0v0b  
       2020-06-16 01:10:34 +08:00
    我看到篇帖子说手机和 wifi 有辐射建议你睡觉断网关机(狗头)
    fishofcat
        27
    fishofcat  
    OP
       2020-06-16 09:55:32 +08:00
    @Mac 手环是可以震动吗?其实报警不频繁,主要是家人睡的浅
    ruanimal
        28
    ruanimal  
       2020-06-16 10:00:52 +08:00
    招运维啊
    ZeoKarl
        29
    ZeoKarl  
       2020-06-16 10:10:07 +08:00 via iPhone
    我表示睡着了也就地震和爆破可以把我震醒
    NoKey
        30
    NoKey  
       2020-06-16 10:13:36 +08:00
    公司规定 24 小时待命,有报警多少小时内必须处理,等等
    那就干这活,就得做这事呗
    如果没规定。。。那你想怎么干怎么干。。。
    Mac
        31
    Mac  
       2020-06-16 10:17:07 +08:00
    @fishofcat #27 手环和手机是蓝牙连接的,可以震动
    zxcslove
        32
    zxcslove  
       2020-06-16 10:45:52 +08:00   1
    传统单位都是设置值班岗位,还是 IT 企业会省钱
    threeEggs123
        33
    threeEggs123  
       2020-06-16 13:32:16 +08:00 via Android
    @levelworm 外企,工资又高,又不加班,只是倒霉,谁叫他没接电话呢,客户亏了钱,总得找个锅顶上?
    levelworm
        34
    levelworm  
       2020-06-16 20:00:58 +08:00 via Android
    @threeEggs123 这事情不处理领导么。。。
    win7pro
        35
    win7pro  
       2020-06-16 23:08:18 +08:00
    戴耳机睡
    ivyliner
        36
    ivyliner  
       2020-06-17 14:09:50 +08:00
    @fishofcat 可以买个小米手环, 会震动. 我是想早上自己早起, 买了个手环, 效果还可以.
    你的场景下的话, 手机可以静音, 然后手环会在手机没有接的 5s 之后震动.
    fishofcat
        37
    fishofcat  
    OP
       2020-7-04 17:46:54 +08:00
    @ivyliner 小米这震动强度太低了,我昨晚试了一下,睡着了完全感觉不到
    freelancher
        38
    freelancher  
       2020-07-23 17:10:02 +08:00
    我以前也老这样半夜醒。同事也是。后面都得心脏病了。

    业务稀烂就要人肉顶。招个 24 小时值班团队就是了。没钱。呵呵。跑路。
    yupozhang
        39
    yupozhang  
       2022-06-23 19:28:49 +08:00
    晚上的报警需要自动打电话啊。推荐一个推送助手,push .spug.cc
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     891 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 19:42 PVG 03:42 LAX 12:42 JFK 15:42
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86