请问各位大佬, Linux 在空闲时期时不时死机该怎么排查? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Wdafff

请问各位大佬, Linux 在空闲时期时不时死机该怎么排查?

  •  
  •   Wdafff Feb 21, 2023 2831 views
    This topic created in 1163 days ago, the information mentioned may be changed or developed.

    1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。

    2.添加了 crash log ,死机重启后并没有日志。

    3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。

    4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。

    Supplement 1    Feb 21, 2023
    现在加了每分钟记录 top ,等下次死机出现看看。。。
    19 replies    2023-02-21 14:27:03 +08:00
    msclelo     1
    msclelo  
       Feb 21, 2023 via iPhone
    1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点
    2. 检查下系统日志,看能不能找到些蛛丝马迹
    3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因)
    4. 重装大法
    wuruxu
        2
    wuruxu  
       Feb 21, 2023
    整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药
    Wdafff
        3
    Wdafff  
    OP
       Feb 21, 2023
    @msclelo #1 2 、3 都排查过了,看不出问题,现在试试开启 coredump ,实在不行再重装了
    pupboss
        4
    pupboss  
       Feb 21, 2023
    CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘
    Wdafff
        5
    Wdafff  
    OP
       Feb 21, 2023
    @wuruxu #2 CPU 开始上升时就已经死机了,所有的监控都断了,脚本还会运行吗
    tlxxzj
        6
    tlxxzj  
       Feb 21, 2023
    对网络流量监控看看,可能是被挖矿了
    Wdafff
        7
    Wdafff  
    OP
       Feb 21, 2023
    @pupboss #4 空闲时也有可能死机,看历史监控磁盘 IO 并不高,单独压测服务器又没有问题
    neoacj1
        8
    neoacj1  
       Feb 21, 2023
    找块新硬盘 dd 过去,排除硬盘问题
    Wdafff
        9
    Wdafff  
    OP
       Feb 21, 2023
    @tlxxzj #6 内网服务器也不安装其他软件,应该不会吧,流量看着和其他正常服务器差别不大
    duzhor
        10
    duzhor  
       Feb 21, 2023
    你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹
    Eytoyes
        11
    Eytoyes  
       Feb 21, 2023   1
    物理服务器可以跑硬件诊断看看,排除硬件问题

    遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失
    Wdafff
        12
    Wdafff  
    OP
       Feb 21, 2023
    @Eytoyes #11 就是跑一遍压测吗
    fengfisher3
        13
    fengfisher3  
       Feb 21, 2023
    如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。
    fengfisher3
        14
    fengfisher3  
       Feb 21, 2023
    不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。
    Wdafff
        15
    Wdafff  
    OP
       Feb 21, 2023
    @fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器
    Eytoyes
        16
    Eytoyes  
       Feb 21, 2023
    @Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作
    bitdepth
        17
    bitdepth  
       Feb 21, 2023
    如果是 hardware ,你 server 有 BMC ?
    LXGMAX
        18
    LXGMAX  
       Feb 21, 2023
    遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看
    la2la
        19
    la2la  
       Feb 21, 2023
    CDH 数据节点,直接下线重做系统
    About     Help     Advertise     Blog     API     FAQ     Solana     972 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 72ms UTC 20:11 PVG 04:11 LAX 13:11 JFK 16:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86