mongodb 唯一索引重复数据问题请教 - V2EX
vverr

mongodb 唯一索引重复数据问题请教

  •  
  •   vverr Jul 22, 2020 6162 views
    This topic created in 2144 days ago, the information mentioned may be changed or developed.

    大佬们好,我用的 mongodb4.2,目前数据导入进去了,80 亿数据,导了很久。。然后在建联合唯一索引的时候,有数据重复,报错无法创建。。。


    有没有什么好的方法可以建联合唯一索引,删了数据先建索引再重新导,实在太折腾太慢了。。。

    9 replies    2020-07-22 22:44:08 +08:00
    pupboss
        1
    pupboss  
       Jul 22, 2020
    空表先创建索引,再想办法导入,唯一索引重复的就会报错了
    tikazyq
        2
    tikazyq  
       Jul 22, 2020
    试一下把组合字段弄成一个组合键放在_id,直接插入就可以了,主键自动去重
    Stypstive
        3
    Stypstive  
       Jul 22, 2020
    使用 MongoDB 的 Bulk Operation,每 5 万条插入一次很快的。不要用 save 或 insert 方法,太慢了。
    holajamc
        4
    holajamc  
       Jul 22, 2020
    借楼问一下 80 亿的数据查询效率如何呢?
    aborigine
        5
    aborigine  
       Jul 22, 2020
    建新表,加索引,旧表导入新表,删旧表
    aborigine
        6
    aborigine  
       Jul 22, 2020
    联合唯一不如把唯一索引的字段拼接以后取 hash 后单字段索引去重,有效降低索引大小及去重效率
    Stypstive
        7
    Stypstive  
       Jul 22, 2020
    或者找出来重复的数据,删除了,再建索引。

    这是一个查找重复手机号的用户的数据的例子,你可以根据你业务改改。

    var p = [
    {
    $group: {
    _id: '$mobile',
    count: {
    $sum: 1
    }
    }
    },
    {
    $match: {
    count: {
    $gt: 1
    }
    }
    }
    ]

    db.member_user.aggregate(p)
    vverr
        8
    vverr  
    OP
       Jul 22, 2020
    谢谢大佬们
    @pupboss @aborigine 确实应该只能重新导了 mongo2.x 的版本还支持一个参数,目前那个参数废弃了
    @tikazyq @aborigine @Stypstive 直接从文件开了 50 个 import 进程导入的,大约 1 秒 40 万条,写代码自定义_id 方式试了一下,插入的性能实在太低了,所以就想建联合唯一索引了。
    @holajamc 目前插入 80 亿数据,因为每条数据字段比较少,占空间 700G 多,根据索引查询延迟在 50-80ms 还可以,就用的单台机器,没分片。
    tikazyq
        9
    tikazyq  
       Jul 22, 2020
    @dtgxx 写代码插入肯定没有 native 快,用批量插入可能会快一些
    About     Help     Advertise     Blog     API     FAQ     Solana     889 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 20:13 PVG 04:13 LAX 13:13 JFK 16:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86