[网络相关] 求助分析一个早上遇到的服务器服务响应缓慢, hang 住的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Curiosity777
V2EX    Java

[网络相关] 求助分析一个早上遇到的服务器服务响应缓慢, hang 住的问题

  •  
  •   Curiosity777 289 天前 1670 次点击
    这是一个创建于 289 天前的主题,其中的信息可能已经有所发展或是发生改变。

    环境

    • 单机

    • Docker 部署所有服务,且无任何资源限制

    • 服务器资源如下

     total used free shared buff/cache available Mem: 124Gi 51Gi 59Gi 381Mi 12Gi 71Gi Swap: 7.9Gi 0B 7.9Gi 
    • CPU32 核
    • top 命令输出
    top - 11:31:32 up 1:11, 1 user, load average: 12.09, 10.88, 10.11 Tasks: 1422 total, 3 running, 1417 sleeping, 0 stopped, 2 zombie %Cpu(s): 8.6 us, 4.0 sy, 0.0 ni, 86.4 id, 0.1 wa, 0.8 hi, 0.2 si, 0.0 st MiB Mem : 127595.7 total, 60302.0 free, 53900.8 used, 13392.9 buff/cache MiB Swap: 8044.0 total, 8044.0 free, 0.0 used. 72635.6 avail Mem 

    目前整个故障过程中,对 free 命令以及 cpu 负载进行了监控,基本上没有变化,很稳定

    现象

    今早所有在服务器上部署的服务,均响应缓慢,

    • 测试应用服务器 rest 接口调用正常,只是慢一点
    • 测试 nginx80 访问 web 端,页面无法正常加载
    • 测试 tdengine 时序数据库执行 select count(*) from table 能正常返回,测试 select * from tables limit 100 ,直接 hang 住卡死

    我做的处理

    • 重启了数据库服务,重启完成后,以上问题依旧存在
    • 重启了整改服务器运行的服务,重启之后,问题依旧存在,
    • 我考虑到如果是资源问题,那么在我重启服务器所有的运行的服务后,理论上资源应该释放掉了,但是实际上,并没有释放,问题依旧。
    • 随后我对整个服务器进行重启,重启之后服务依旧存在
    • 后被告知,我的服务器是个虚拟化的机子,通过联系相关网络中心的,在那边重启了他们的实体机,实体机重启完后,服务恢复了,接口请求也不 hang 住了
    9 条回复    2025-03-15 11:01:21 +08:00
    lrh3321
        1
    lrh3321  
       289 天前
    1. 实体机超卖了
    2. 在执行什么占用 CPU 的任务刚好把分给你核心给占用了
    3. 实体机对应的 IO 线程拿不到 CPU 时间片。或者 IOPS 过大,你虚拟机被 IO 卡住了
    SKYNE
        2
    SKYNE  
       289 天前
    swap 分区可以考虑永久禁用掉
    Curiosity777
        3
    Curiosity777  
    OP
       289 天前
    @SKYNE 应该和 swap 没关系
    Curiosity777
        4
    Curiosity777  
    OP
       289 天前
    @lrh3321 目前那边反馈实体机上只有我们这一个虚拟机,没有其他人占用,不过 io 这块我确实没排查
    mgcnrx11
        5
    mgcnrx11  
       288 天前
    可能是虚拟化的软件 bug 。果然是重启大法好
    Curiosity777
        6
    Curiosity777  
    OP
       288 天前
    @mgcnrx11 这个确实有可能
    SKYNE
        7
    SKYNE  
       288 天前
    额,是和 swap 没关系
    SKYNE
        8
    SKYNE  
       288 天前
    OP 那没有监控系统吗
    Curiosity777
        9
    Curiosity777  
    OP
       288 天前
    @SKYNE #8 有的,但是看各项指标都正常
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2639 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 06:51 PVG 14:51 LAX 22:51 JFK 01:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86