Ubuntu 服务器多线程不稳定,数据 md5sum 经常变 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
faoisdjioga
V2EX    Linux

Ubuntu 服务器多线程不稳定,数据 md5sum 经常变

  •  
  •   faoisdjioga 2024-02-07 10:49:07 +08:00 2411 次点击
    这是一个创建于 611 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在做生物信息学分析过程中,用到的软件为 R/python ,和一些其他生物分析常用软件,在跑多线程任务时候经常出问题。

    1 ) 多线程任务

    1.1 ) 比如,Error in unserialize(node$con) ,还有一些 warning ,说是线程没有返回结果(还有其他一些线程错误代码)

    1.2) R 和其他的软件在跑多线程的时候,用的__好像__是 c++, 是我 c++还需要进行适配嘛?

    1.3) 我 python 跑一些多线程任务时候好像就比较稳定。

    2 ) 有些数据存储过程不稳定

    2.1 ) 下载的生信数据(fastq.gz)md5sum 不知道什么原因就变了(数据有些 quality, reads 长度不一致),数据不可用

    2.2) 但我的一些其他数据好像没有问题,一些基于 R/python 存储的对象,csv ,txt 的超大表格等,没有问题,可以正常读取,数据重新跑,结果也能完美重复,但是我没有 check 过 md5sum

    尝试过的解决方法

    1 ) 重装系统,

    2 ) 换硬盘(固态 -> 硬盘 -> 固态),硬盘挂载方式也从 lvm -> 直接挂载

    3 ) ubuntu 桌面卸载

    4 ) 换软件版本(尝试了超多的版本)

    都不行

    后来用公司服务器跑就没有什么问题(公司用的是铂金的 cpu )。采取和我本地电脑相同的软件配置,相同的数据。

    1 ) 数据稳定

    2 ) 一些软件没有报错

    目前我只能暂定认为是硬件稳定性不好,

    吐血求助: 到底是哪里问题,1 )是家用主板是不是当不了 server ,2 )还是我个人配置问题,3 )还是我硬件没有氪金上高档的。

    我的配置是

    CPU 12700 (散片),

    主板 MSI-B660M ,

    内存 DDR4 asgrad 32GB x 3 ,16GB x 1 ( 22 年购买,用的是网上相对很便宜的 DDR4 )

    系统 Ubuntu

    第 1 条附言    2024-02-26 12:05:06 +08:00
    首先非常感谢各位大佬的回复,
    1 ) 关于数据问题:

    * 下载后的数据我每次都会做 md5sum ,确保下载之后的数据完整。我的电脑的问题是:

    * 下载数据 ->md5sum test 通过 -> 过了一段时间(或者跑程序之后) -> md5sum test 就和原来的不一样了。

    * 错误不可控,跑程序 1 -> A 文件坏了 ->重新下重新跑 -> A 文件,也有可能 B 文件坏了:(

    * 目前解决方法: 放弃原来电脑的硬盘,用之前老电脑做了一个 NAS ( truenas ),网络挂载(只读),数据终于稳定了

    2) 程序错误问题:

    正在测试...
    第 2 条附言    2024-03-12 14:39:22 +08:00
    内存坏了
    11 条回复    2024-03-12 14:42:57 +08:00
    a22271001
        1
    a22271001  
       2024-02-07 10:53:00 +08:00
    看程序代码
    LittleSho
        2
    LittleSho  
       2024-02-07 11:27:52 +08:00 via Android
    内存用 memtest86 跑 4 圈看看有没有 error
    CPU 用 intel 处理器诊断工具跑一遍试试(需要在 windows 下跑)
    weidaizi
        3
    weidaizi  
       2024-02-07 13:16:01 +08:00
    md5sum 变了这个还有可能是硬盘的问题,但是 OP 说线程返回错误,这个锅都要系统/硬件来背是不是夸张了
    而且啥代码都不贴,给个报错信息,别人怎么知道是什么错误?
    kkkbbb
        4
    kkkbbb  
       2024-02-07 15:19:26 +08:00
    操作系统多线程不稳定,头一次听说也是
    F7TsdQL45E0jmoiG
        5
    F7TsdQL45E0jmoiG  
       2024-02-08 09:41:11 +08:00
    服务器内存有 ecc 校验
    F7TsdQL45E0jmoiG
        6
    F7TsdQL45E0jmoiG  
       2024-02-08 09:42:12 +08:00
    另外,disable cpu 超线程
    ShuWei
        7
    ShuWei  
       2024-02-08 10:02:02 +08:00
    极大概率是代码的锅
    laqow
        8
    laqow  
       2024-02-08 10:13:23 +08:00
    下载国外数据大概率出错是国内网络特色。另外如果通过移动机械硬盘拷贝 10G 以上数据大概率会出现写入错误,应该用带校正的软件拷贝。ubuntu 默认是缓存读写硬盘,卸载移动硬盘前应该运行 sync 合并缓存。
    python 和 R 原生都是假的多线程,使用 sock 方式实现共享内存时需要复制主进程所有内存,很容易就内存不足。ubuntu 下可以使用 fork 方式实现内存共享。
    imlm
        9
    imlm  
       2024-02-12 23:53:24 +08:00
    生信数据库数据 md5sum 校验出问题大概率是网络问题,特别是特别大的 fq 文件,建议更换网络。有些时候为了防止传输 fq 文件中的出错,我会选择做私人种子传输
    tomychen
        10
    tomychen  
       2024-02-18 15:25:40 +08:00
    检查内存吧 当年撸了个 copy file 因为内存问题,搞得我怀疑人生,直到有一天,我无意中 cp xxx.iso /tmp/xxx.iso
    然后 再 check md5 才发现错怪了自己
    faoisdjioga
        11
    faoisdjioga  
    OP
       2024-03-12 14:42:57 +08:00
    测试了很多。mmtest 显示内存有问题。
    不打算继续买内存做测试了。大概率是内存的问题。CPU 和其他硬盘都测了,没有问题。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1240 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 17:18 PVG 01:18 LAX 10:18 JFK 13:18
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86