请教一下存储大佬, 这服务器的硬盘是不是很快要升天了? 有必要立刻迁移数据吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Int100
V2EX    硬件

请教一下存储大佬, 这服务器的硬盘是不是很快要升天了? 有必要立刻迁移数据吗?

  •  
  •   Int100 171 天前 2468 次点击
    这是一个创建于 171 天前的主题,其中的信息可能已经有所发展或是发生改变。

    两块 NVME 固态组的 (soft) Raid-1, S.M.A.R.T.测试两块盘都没通过 (FAILED) :

    • 第一块已达使用寿命 106%
    - NVM subsystem reliability has been degraded SMART/Helth Information (NVMe Log 0x02) Critical Warning: 0x04 Temperature: 34 Celsius Available Spare: 100% Available Spare Threshold: 10% Percentage Used: 106% Data Units Read: 30,712,672,589 [15.7 PB] Data Units Written: 1,862,279,023 [953 TB] Host Read Commands: 76,147,225,142 Host Write Commands: 9,769,033,638 Controller Busy Time: 52,392,054,374 Power Cycles: 11 Power On Hours: 24,101 Unsafe Shutdowns: 1 Media and Data Integrity Errors: 0 Error Information Log Entries: 144 Warning Comp. Temperature Time: 0 Critical Comp. Temperature Time: 0 Temperature Sensor 1: 34 Celsius Temperature Sensor 2: 36 Celsius 
    • 第二块已达使用寿命 163%
    - NVM subsystem reliability has been degraded SMART/Health Information (NVMe Log 0x02) Critical Warning: 0x04 Temperature: 39 Celsius Available Spare: 100% Available Spare Threshold: 10% Percentage Used: 163% Data Units Read: 47,306,232,682 [24.2 PB] Data Units Written: 3,009,805,511 [1.54 PB] Host Read Commands: 132,313,748,968 Host Write Commands: 41,306,780,960 Controller Busy Time: 141,500,864,939 Power Cycles: 19 Power On Hours: 32,831 Unsafe Shutdowns: 6 Media and Data Integrity Errors: 2 Error Information Log Entries: 259 Warning Comp. Temperature Time: 0 Critical Comp. Temperature Time: 0 Temperature Sensor 1: 39 Celsius Temperature Sensor 2: 65 Celsius 

    有必要立刻迁移数据吗? 感谢

    12 条回复    2025-04-25 16:27:01 +08:00
    kokutou
        1
    kokutou  
       171 天前 via Android
    固态不会立刻暴毙,但是这不是服务器吗。。。换硬盘不是供应商的事?
    defunct9
        2
    defunct9  
       171 天前 via iPhone
    机械飞升在即,赶紧换吧
    oldboy627
        3
    oldboy627  
       171 天前   2
    我不是存储有关的人,但是我把第一块数据扔给了 AI ,它给出的结论是:Critical Warning 值为 0x04 ,表明硬盘处于危险状态。

    我又去搜索了 NVME 文档验证了下有关于 Critical Warning 的内容,在 NVM-Express-1_4-2019.06.10-Ratified.pdf 中 122 页的 Critical Warning 的部分,给出了具体 bit 的定义。
    Critical Warning 的值 0x04 转换为 2 进制的话,是 00000100 ,其第二位是 1 ,根据文档中的定义,如果设置为 1 ,NVM 子系统的可靠性已经降级(If set to ‘1’, then the NVM subsystem reliability has been degraded due to significant media related errors or any internal error that degrades NVM subsystem reliability)。

    Percentage Used: 生产厂商对硬盘预计的寿命时间,这个值可以大于 100%,也不一定表示一定发生故障,当这个值大于 254 的时候会使用 255 来表示。 这个值更新时间是每一小时一次。

    国外也有人在 reddit 上问过类似的情况。

    我的个人建议是,如果数据重要且是公司的存储,换新硬盘更保险,不要自己承担风险。

    相关链接
    https://nvmexpress.org/wp-content/uploads/NVM-Express-1_4-2019.06.10-Ratified.pdf
    https://www.reddit.com/r/unRAID/comments/vlmody/nvme_ssd_failed_in_smart_test_but_is_still_working/
    shakaraka
        4
    shakaraka  
    PRO
       171 天前
    现在存储便宜得很,该换换
    xclimbing
        5
    xclimbing  
       171 天前   1
    存储冗余还完全没有使用,按固态的原理,没啥问题,不过数据重要,不差钱就换了吧。换下来可以继续用。
    sugubei
        6
    sugubei  
       171 天前
    @oldboy627 以后尽量少回复这种,有人看不惯会 @管理员 删你账号,之前就有人使用 ai 回复被删账号了。
    jardel
        7
    jardel  
       171 天前
    @sugubei 是使用 AI 回复才会,这种结合 AI 判断的不会
    HojiOShi
        8
    HojiOShi  
       171 天前
    使用了超过 100%的寿命和 SMART 自检不过都不去换吗,你还真坐的住。

    @sugubei #6 一大段全是 AI 的,和只有一句话是 AI 的,还是有区别的。
    julyclyde
        9
    julyclyde  
       171 天前   1
    想都别想,赶紧换

    SMART 报 OK 不一定真的 OK ,但是报错那一定是有错
    Felixchen1062
        10
    Felixchen1062  
       171 天前
    是自己的就立刻备份换掉, 是公司的就打个报告, 给出评估结果, 让别人做决定, 记得工作留痕
    WuSiYu
        11
    WuSiYu  
       171 天前   1
    赶紧备份吧,写入量巨大,寿命已经耗尽了,Media and Data Integrity Errors 和 Error Information Log Entries 有值了,鉴定为寄,能活到现在也不容易
    chnsatan
        12
    chnsatan  
       168 天前
    数据没那么重要的话,心大点,无所谓。
    我有块 14T 的氦气盘,报错一年了,里面都是些电影电视剧,即便炸了也无所谓
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2997 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 12:08 PVG 20:08 LAX 05:08 JFK 08:08
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86