大家好,
我家使用的是畅网 N100 软路由,安装了 PVE 作为虚拟化平台,配置了爱快做主路由,IstoreOS 做旁路由,硬盘是刚刚更换的铠侠 SD10 ,1TB ,内存为 16GB 海力士。
问题是,设备经常死机,系统死机时硬盘灯不亮,只有重启后才能恢复正常,硬盘灯会闪烁。每次死机后需要强制重启才能恢复,而每次重装 PVE 系统后,最多能坚持一个月左右,之后问题再次出现。
现象: 死机时,网口灯正常闪烁,但硬盘灯不亮。 手摸机器,感觉超级烫,可能是过热问题。
在最初,我怀疑是 IstoreOS 旁路由问题,已经设置了旁路由每天自动重启,但问题依然没有解决。
更换硬盘前,老硬盘也有类似问题,最后几次强制重启都没用,每次都需要格式化硬盘并重装 PVE ,且死机的间隔时间越来越短,一开始是 30 天,最后仅能坚持 3 天。
新硬盘情况:目前新硬盘强制重启系统后不会立即挂掉,但系统的维持时间越来越短,现在是 15 天、7 天、3 天,下一次死机时间无法预测。
目前排查的情况: 设备配置:畅网 N100 软路由,PVE 虚拟化 + 爱快主路由 + IstoreOS 旁路由,硬盘为铠侠 SD10 ,1TB ,内存 16GB 海力士。 现象:死机时网口灯正常闪烁,硬盘灯不亮,机器非常烫,需重启才能恢复,重装系统后最多能坚持一个月。 历史问题:换硬盘前,老硬盘也频繁死机,强制重启和重装 PVE 均未能解决问题。最后几次强制重启都无效,需要格式化硬盘并重装,死机时间间隔逐渐缩短,从 30 天到 3 天。
怀疑问题: 1. 电源问题:电源是否稳定,是否供电不足导致死机? 2. 硬件兼容性或驱动问题:是否存在硬件不兼容或驱动问题,导致系统不稳定? 3. 散热问题:设备过热是否导致死机?是否需要更好的散热方案? 4. PVE 配置问题:PVE 和虚拟机的资源配置是否合理?
![]() | 1 ysc3839 206 天前 建议先排查散热吧,打开盖子用个小风扇吹,看看有没有问题就知道了 |
![]() | 2 jiaoguan1688 206 天前 ![]() 我想回贴告诉你,畅网很垃圾 我买的万兆畅网也不行了 |
![]() | 3 jiaoguan1688 206 天前 你的问题我感觉是 cpu 过热了 但是也排除下内存问题吧先 |
![]() | 4 v1 206 天前 99%供电不足 |
![]() | 5 Int100 206 天前 via iPhone 大概率硬件问题,搞一台二手服务器跑 PVE 吧 |
![]() | 6 ashes1122 206 天前 把机器盖子打开。 |
7 laminux29 206 天前 科普一下硬件维护,新电脑买回来后,要做几个检查: 1.内存条检测,用 memtest86+,至少跑 48 小时,不能有红字报错。 2.每个硬盘、SSD 要做 3 项检测:全盘读写检测、性能检测、S.M.A.R.T 检测。 3.满负载测试:双烤 3 天检测,记录功耗与温度曲线。 |
![]() | 8 wq2016 206 天前 供电、SSD 、散热,就这 3 个问题,自己排查吧 |
9 godwei 206 天前 是不是这硬盘发热量太大了 |
![]() | 10 Excepti0n 206 天前 换个内存试试 |
![]() | 11 akvo 206 天前 via Android 遇到过差不多状况,直接返厂了 |
12 ofnh 206 天前 N100 发热挺大的,先加个风扇试一下吧 |
13 keengrass 206 天前 最有可能是过热 |
14 yinmin 206 天前 via iPhone 大概率是 cpu 过热没有降频,导致 cpu 死机。 进 bios 调整一下散热设置。windows 系统下 cpu 温度过高会降频,pve 没这个功能,风扇和降频依赖 bios 。 |
![]() | 15 vmebeh 206 天前 遇到过 N5105 发热大了 SSD 掉盘的情况,接了显示器才看到一堆内核错误,这时 SSD 挂了没法写日志 |
16 yinmin 206 天前 via iPhone 升级 bios ,实在不行,可以试试 pve 转 windows 的 hyper-v ,windows 有 cpu 过热降频的 |
17 hefish 206 天前 感觉是板载的东西可能有问题,最大嫌疑是 cpu 或者跟 cpu 相关的控制器之类的。。 应该不是散热。应该是 cpu 体质或者南桥北桥之类的。 |
![]() | 19 kokutou 206 天前 via Android 找售后 上 v2 输出 |
![]() | 21 UTRzf5BD820c55PQ 206 天前 via Android 可能与固件版本和配置有关,网上搜一下"爱快 死机",不少人遇到同样的问题。 |
22 sunulin 206 天前 硬件问题,我的不小心碰一下就会死机。红屏 我装的 EXSI ,给我售后了两个月 才弄回来,回来了 4 个网口 有一个坏掉了 ,过了两个月又犯病了。。 |
23 Y25tIGxpdmlk 206 天前 @keengrass #13 最没可能是过热,过热一般降频或卡顿。 死机多半是内存或硬盘啥的硬件问题 |
![]() | 24 davidyin 206 天前 via Android 系都放在一起就不太好判,最好是配路由,放在 PVE 面。 |
![]() | 25 vinsony 206 天前 大概率就是最近气温升高了,几块钱买个 USB 的风扇一直吹就行了 |
26 exkernel 206 天前 检验判断是内存 |
![]() | 27 IvanLi127 206 天前 把虚拟机全停了,在宿主机烤机看看。排除一点是一点。不过我感觉是掉盘了 |
28 VwEI 206 天前 首先换个电源看看 |
29 Logtous 206 天前 建议直接安装一个 x86 immortal openwrt 到设备上观察运行一段时间,如果一切正常那就是系统层面的问题,感觉都已经是多网口设备了,为何不直接软路由系统,pve 虚拟机虽然死可以多虚拟机,但 openwrt 基本上也是一个全能系统(我设置用 openwrt 组了 raid1 来做 nas )软路由+ap 简单清晰明了的网络布局 比旁路由简单多了 |
30 HK560 206 天前 我的也是 n100 ,我感觉这发热是得上风扇的 |
![]() | 31 TobeRey 206 天前 PVE ?我的是 N5105 ,频繁死机,查日志老是卡死在每日定时更新,关了以后就好了。 `systemctl disable pve-daily-update.timer` |
32 Fooooo0 206 天前 我也是畅网 N100 ,大背头版,也是 PVE ,已经运行 550 天 没重启过了 |
33 chnsatan 206 天前 两个问题建议排查下 1 、看日志,PVE 有个毛病,Intel NIC e1000e hardware unit hang ,导致 PVE 整个系统崩溃 2 、加个风扇,N100 散热通病 |
34 TNOK 205 天前 用的是 1215U ,12 代装 PVE 有 C 状态睡死的问题,表现也是网口正常亮,grub 里修改最大 C 状态为 2 可以解决。 |
![]() | 35 pinyoung 205 天前 我的 n100 零刻,风扇坏了照样跑,功率降低了,不会死机,之前装 esxi 的时候会死点,pve 基本上全天 90%负载跑,温度 cpu 差不多 89 度全天,没事 |
37 sanquan 205 天前 via iPhone 找畅网退换 |