「数据处理求助」两个基因检测公司得到的两份碱基序列报告不一致 - V2EX
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
yorkyoung

「数据处理求助」两个基因检测公司得到的两份碱基序列报告不一致

  •  
  •   yorkyoung Aug 30, 2018 4431 views
    This topic created in 2813 days ago, the information mentioned may be changed or developed.

    各位工程师好,我个人在两家基因检测公司做了检测,得到两份“位点-序列”( rsid-genotype )测序结果,理论上这两份序列结果应该是一样的,但我发现有一定比例的不一致,我想知道不一致的准确比例是多少,由于有超过 59 万条对应关系,我无法在个人电脑上处理,且没有数据处理软件使用能力,希望可以得到帮助。恳请有兴趣的工程师与我联系。子弹短信:ggyy https://s1.ax1x.com/2018/08/30/PXfHl8.png

    Supplement 1    Aug 30, 2018
    已经解决 用 Excel 硬做的
    TheWalkingDead
        1
    TheWalkingDead  
       Aug 30, 2018
    流行子弹短信吗 哈哈
    RangerWolf
        2
    RangerWolf  
       Aug 30, 2018
    数据可以传到公司外面?
    59W 条数据应该还好, 用 Pandas 感觉普通电脑应该能搞定
    marcong95
        3
    marcong95  
       Aug 30, 2018
    理论上这两份序列结果应该是不完全一样的把,DNA 复制的时候有一定概率会产生变异,这个概率放大到全基因组的话,“不完全一样”的概率是很高的。

    提供一个不知道可不可行的办法:把注释删掉,然后行排序,然后 diff 之,应该是不需要上什么专业软件,找个编辑器之类的。59w 行可能要跑一段时间,不过应该还好?
    yorkyoung
        4
    yorkyoung  
    OP
       Aug 30, 2018
    @marcong95 已经尝试过了,在 Excel 中运行了 vlookup 就跑了 15 个小时还是 17 款 256G MPB
    krixaar
        5
    krixaar  
       Aug 30, 2018
    导数据库里两张表,然后(select * from A minus select * from B) union all (select * from B minus select * from A)这样?
    LadyChunsKite
        6
    LadyChunsKite  
       Aug 30, 2018
    题外话:
    其实我有时候就在想,自己的基因可是一个很重要的个人信息呀,比什么手机号,年龄重要多了。
    就不怕被公司拿走干坏事?
    jccg90
        7
    jccg90  
       Aug 30, 2018
    @LadyChunsKite 基因信息虽然很重要,但是完全无法保护。。。比如上个厕所,吐个痰,去饭店吃个饭。。。到处都是完整的基因信息吧
    dacer250
        8
    dacer250  
       Aug 30, 2018
    子弹短信无法在 8.0 的 ios 上运行,可以联系我 qq:OTgzMTM5MDk3
    Wolther47
        9
    Wolther47  
       Aug 30, 2018 via iPad
    碱基对比对? Smith waterman 了解一下?
    HankAviator
        10
    HankAviator  
       Aug 30, 2018
    @LadyChunsKite 不在居住国家做问题不大,倒是保险送的基因检测万万做不得
    zhouquan03
        11
    zhouquan03  
       Aug 30, 2018
    BWA SOAP 软件了解一下
    wqzjk393
        12
    wqzjk393  
       Aug 30, 2018
    哪有用 vlookup 做大数据匹配的,vlookup 感觉就是完全的挨个遍历,慢的厉害还特别占资源
    wqzjk393
        13
    wqzjk393  
       Aug 30, 2018
    pd.read_csv/excel 把两个数据读进来,df1.merge(df2,how=left)左关联第二份数据,然后比较呗。但是如果你位点数据都一样的话为什么不先排序然后直接用 excel 的'='做对比呢
    yorkyoung
        14
    yorkyoung  
    OP
       Aug 30, 2018
    @wqzjk393 别的不懂 只会 vlookup
    About     Help     Advertise     Blog     API     FAQ     Solana     5643 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 60ms UTC 03:36 PVG 11:36 LAX 20:36 JFK 23:36
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86