AWS Lightsail 生产服务器频繁断网如何排查? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
naoh1000
V2EX    云计算

AWS Lightsail 生产服务器频繁断网如何排查?

  •  
  •   naoh1000 2021-03-06 09:59:40 +08:00 via iPhone 5922 次点击
    这是一个创建于 1729 天前的主题,其中的信息可能已经有所发展或是发生改变。
    个人项目,规模大了一个月前迁移到 AWS Lightsail,用了 2 台 VPS,8c32g 跑业务,4c16g 跑数据库,都是 Ubuntu 20.04 LTS,都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网,SSH 和业务都连接不上,必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台,发现掉线就调 API 重启。请问可能是什么问题,有没有更好的解决方案?机器都是自己账号正价买的,没用过任何码。
    22 条回复    2021-03-07 21:30:44 +08:00
    msg7086
        1
    msg7086  
       2021-03-06 10:09:27 +08:00
    固定 IP 还是 DHCP ?换一下试试。
    另外连接数大不大? 1:1 NAT 可能会炸。
    sampeng
        2
    sampeng  
       2021-03-06 10:11:32 +08:00 via iPhone
    aws 没这么脆弱。带宽是 5G…你能跑满?
    大概率是 cpu 跑满了。所以 ssh 都回不去了
    em998
        3
    em998  
       2021-03-06 10:30:06 +08:00 via iPhone
    CPU 用超了吧
    kerro1990
        4
    kerro1990  
       2021-03-06 11:05:24 +08:00 via iPhone
    估计是 cpu 积分用完了吧
    celeron533
        5
    celeron533  
       2021-03-06 11:08:42 +08:00
    我记得 lightsail 虽然便宜,但是对于 CPU 使用有一定限制
    aec4d
        6
    aec4d  
       2021-03-06 11:09:07 +08:00 via iPhone
    lightsail 适合开发,或者低占用场景,长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360
    jadec0der
        7
    jadec0der  
       2021-03-06 11:48:57 +08:00
    lightsail 背后是低成本,可以应付突发性能的 T 实例,平时 CPU 用的很少的时候给你加积分,CPU 高的时候扣积分,如果积分用完了就要卡死了。如果需要持续使用 CPU,建议换成 EC2 的 M 实例或者 C 实例
    jadec0der
        8
    jadec0der  
       2021-03-06 11:54:53 +08:00
    你看一下 lightsail Manage - Metrics 里的 CPU,如果 Remaining CPU burst capacity 没有了,那 CPU 性能就只能维持在 sustainable zone 区间
    naoh1000
        9
    naoh1000  
    OP
       2021-03-06 12:51:07 +08:00 via iPhone
    感谢回复,刚才看了下 `Remaining CPU burst capacity` 还有 40%,应该不是 CPU 的问题。跑的是普通 Web 服务,端对端加密是在客户端实现的,应该不需要太高服务器 CPU 性能。

    @sampeng
    @wancaibida
    @kerro1990
    @celeron533
    @aec4d
    @jadec0der
    kerro1990
        10
    kerro1990  
       2021-03-06 13:02:54 +08:00 via iPhone
    @naoh1000 那就是 ubuntu 的问题,换成 centos 试试
    jadec0der
        11
    jadec0der  
       2021-03-06 13:27:09 +08:00
    @naoh1000 40% 不算高了,把时间拉到 2 weeks 最低的时候有多少?
    Kinnice
        12
    Kinnice  
       2021-03-06 13:53:04 +08:00 via Android
    感觉是内存泄露,检查一下程序吧,开个监测,看一下出问题的时候,各项系统占用
    iamv2er
        13
    iamv2er  
       2021-03-06 14:22:40 +08:00 via iPhone
    不好用 买了退了
    simple2025
        14
    simple2025  
       2021-03-06 14:45:13 +08:00
    个人项目,14C48G,估计挣了钱了,什么时候我能有副业呀
    isCyan
        15
    isCyan  
       2021-03-06 15:00:07 +08:00
    SSH 连不上的话很难排查啊,先 ping 确认一下到底是断网还是程序问题?
    whitehack
        16
    whitehack  
       2021-03-06 15:04:33 +08:00
    查监控记录,查各项指标. 然后针对性的去排查.
    另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查


    另外大佬这项目可不小
    wangxn
        17
    wangxn  
       2021-03-06 15:10:31 +08:00
    假如 CPU 不超,那就是内存超了吧。内存超了,也会导致完全卡死,只能重启。我也踩过这个坑。
    bullfrog
        18
    bullfrog  
       2021-03-06 15:15:30 +08:00
    @naoh1000 40%不多,正常应该一直是 100%,除非偶尔执行个 cronjob 可能会降下来点
    huson
        19
    huson  
       2021-03-06 16:06:20 +08:00
    开一台 EC2 同配置的 一台 lightsail 同时跑 看看 ec2 挂不挂 如果 ec2 挂那就是 lightsail 的问题 不需要折腾了 直接换 ec2

    如果 2 个都挂 那说明是你程序问题 直接查 bug 或者环境配置问题 你先把问题大类给分了
    bullfrog
        20
    bullfrog  
       2021-03-06 17:37:58 +08:00
    对,我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里,死机之后查看
    sampeng
        21
    sampeng  
       2021-03-06 20:27:16 +08:00 via iPhone
    cpu,内存,磁盘 io 。都看一下。网络基本很难你能把 aws 的弄满了。
    defunct9
        22
    defunct9  
       2021-03-07 21:30:44 +08:00 via iPhone
    开 ssh,让我上去看看
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     843 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 22:31 PVG 06:31 LAX 14:31 JFK 17:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86