ZFS 持续写入变慢问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
louisxxx
V2EX    Linux

ZFS 持续写入变慢问题

  •  
  •   louisxxx 2023-10-23 05:33:45 +08:00 2859 次点击
    这是一个创建于 723 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我用 11 个东芝 18TB 企业盘( MG09ACA18TE )组的 RAIDZ1 ,机子内存 256GB 。
    用 fio 测试顺序写入最高才 150MB/s, 之前测试上面这个单盘直写能有 250MB/s 。可能是组了 RAIDZ1 损耗了性能。
    但更要命的是测试写入 1TB 数据:
    前 5% 基本有 110 ~ 130 浮动;
    到 20% 基本在 60 ~ 90MB/s 浮动;
    到 50%基本在只有 ~ 48MB/s ;
    到 60%基本在只有 ~ 40MB/s ;

    ZFS 上的配置:
    Type: FILESYSTEM
    Sync: ALWAYS
    Compression Level: LZ4
    Enable Atime: OFF
    ZFS Deduplication: OFF
    Case Sensitivity: ON

    观察了 CPU 使用率非常低,才 5%不到;
    内存使用如下:
    251.8GiB total available (ECC)
    Free: 115.8 GiB
    ZFS Cache: 126.0 GiB
    Services: 9.9 GiB

    FIO 测试命令:
    fio --randrepeat=1 --ioengine=libaio --direct=1 --gtod_reduce=1 --name=test --filename=test --size 1000GB --bs=4m --iodepth=1 --readwrite=write

    第一次用 ZFS ,不知道问题在哪,还是说这就是 ZFS 的标准性能。
    17 条回复    2023-11-06 09:30:25 +08:00
    Dragonish3600
        1
    Dragonish3600  
       2023-10-23 05:48:55 +08:00 via iPhone   1
    sNullp
        2
    sNullp  
       2023-10-23 06:54:45 +08:00
    ashift 多少?
    sNullp
        3
    sNullp  
       2023-10-23 06:59:15 +08:00
    另外你的 storage controller 是啥?会不会再 expander 上有瓶颈?
    我的 6*14TB zfs pool raidz2 用你的 fio 写大概有 550MB/s
    sNullp
        4
    sNullp  
       2023-10-23 07:02:50 +08:00
    破案了
    Sync: ALWAYS
    你这就硬是把 async io 转换成 sync io 来写。你这不配个 SLOG SSD 的话估计就这么点速度了。
    hefish
        5
    hefish  
       2023-10-23 07:28:20 +08:00
    zfs 这东西就不能太多盘, 我 12 个盘做 zfs ,经常 hung up 。 另一台 12 个盘,每 6 个做了一个 pool ,反而跑的很欢,从来没 hung up 的情况。
    louisxxx
        6
    louisxxx  
    OP
       2023-10-23 07:51:40 +08:00
    @sNullp
    NAME PROPERTY VALUE SOURCE
    data01 ashift 12 local

    放内存异步写容易掉数据,可能得加个 NVME 才行。storage cOntroller= AOM-S3108M-H8L-P
    看了背板 1 是接了 2 根 SLIMLINE SAS to MiniSAS HD ,然后背板 2 连接到背板 1 用的 2 根 MINI SAS HD
    sNullp
        7
    sNullp  
       2023-10-23 09:02:37 +08:00 via iPhone
    @louisxxx 你这就是闭门造车了。行吧,你非要 force sync 建议上 optane
    zzboat0422
        8
    zzboat0422  
       2023-10-23 09:08:51 +08:00
    额外提醒一下,在数据中心中,东芝盘的故障率是最高,粗略感受约为另外三家的十倍以上,建议多设置冗余,多备份数据。
    mikewang
        9
    mikewang  
       2023-10-23 10:47:12 +08:00 via iPhone
    Sync: ALWAYS
    强制同步的问题,速度低正常。我两个 NVME 盘开强制同步速度也就剩不到 200M/s 了,损失明显。
    建议关掉 Sync ,怕丢数据上一个靠谱的 UPS 吧。
    lianyanjiajia
        10
    lianyanjiajia  
       2023-10-23 12:02:58 +08:00
    你这个也太慢了 truenas core 4 盘 4t rz1 顺序读写都有 3 400mb/s
    louisxxx
        11
    louisxxx  
    OP
       2023-10-23 23:33:46 +08:00
    @zzboat0422 哪里的数据?我之前看 dropbox 的数据东芝盘的故障率最低好像
    louisxxx
        12
    louisxxx  
    OP
       2023-10-23 23:39:04 +08:00
    louisxxx
        13
    louisxxx  
    OP
       2023-10-24 06:00:28 +08:00
    @lianyanjiajia 我测试我这里顺序读才 200-300MB 。感觉极度不正常。打算装个 md 软 raid 再测试下速度看
    zzboat0422
        14
    zzboat0422  
       2023-10-25 08:52:04 +08:00
    @louisxxx 实测的,本人管理的硬盘大概几万块,其中东芝盘数量占比不到 10%,故障率占比超过 60%。v2 上也就运维少,这在运维行业都不是秘密。之前 B 站因东芝盘故障率高影响太大,一口气换掉了数据中心几千块东芝盘,无论好坏。
    zzboat0422
        15
    zzboat0422  
       2023-10-25 09:06:30 +08:00
    @louisxxx 我看了一下,确实没有我们这边东芝 6T 8T 10T 容量的规格。后面我们新签的采购协议已经禁止东芝盘了,所以没有更大容量的东芝盘的故障率数据。
    louisxxx
        16
    louisxxx  
    OP
       2023-10-25 09:56:50 +08:00 via iPhone
    @zzboat0422 不清楚什么情况 我 8 年前的东芝硬盘现在都还好好的
    lianyanjiajia
        17
    lianyanjiajia  
       2023-11-06 09:30:25 +08:00
    @louisxxx
    你是 scale 吗 我用 scale 就慢的要死 换了 core 就好了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3773 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 10:19 PVG 18:19 LAX 03:19 JFK 06:19
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86