问:多个 Excel 文件共百万条姓名手机号如何快速去重合并成一个文件? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tmkook
0.51D
V2EX    问与答

问:多个 Excel 文件共百万条姓名手机号如何快速去重合并成一个文件?

  •  
  •   tmkook
    PRO
    2020-08-05 10:58:02 +08:00 3093 次点击
    这是一个创建于 1975 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言    2020-08-05 14:32:24 +08:00
    用 PHP 写完了,感谢各位!!!
    24 条回复    2020-08-06 12:13:39 +08:00
    Asshasahole
        1
    Asshasahole  
       2020-08-05 11:17:52 +08:00   1
    招几个人, 每个人划分号段区间, 挨个复制号段内的手机号, 粘贴到新的 Excel 里, 粘贴前搜索一下排重.
    最后几个人的 Excel 复制+粘贴合并就行啦, 注意新的 Excel 要同一个格式噢.

    Excel 的函数应该可以做到文件内去重吧?
    runking
        2
    runking  
       2020-08-05 11:19:35 +08:00
    可以帮你解决,有偿
    yvshen
        3
    yvshen  
       2020-08-05 11:21:29 +08:00
    编程解决吧,用 java 、python 写个脚本
    tmkook
        4
    tmkook  
    OP
    PRO
       2020-08-05 11:24:23 +08:00
    @runking 我会编程,就是想看看坛子里大神们是否有不用编程的快捷方法,或是否有轮子可用
    Pho3nix
        5
    Pho3nix  
       2020-08-05 11:25:07 +08:00
    pandas
    LiYanHong
        6
    LiYanHong  
       2020-08-05 11:28:24 +08:00
    先合并成一个文件,用 excel 里自带的去重功能试试
    iamwho
        7
    iamwho  
       2020-08-05 11:32:32 +08:00
    “我要用记事本开始记事了!”
    dexterzzz
        8
    dexterzzz  
       2020-08-05 11:36:24 +08:00 via Android
    power bi,power query 合并文件
    renmu123
        9
    renmu123  
       2020-08-05 12:35:36 +08:00 via Android
    用 pandas 太简单,预计十几行解决
    xyd1205148795
        10
    xyd1205148795  
       2020-08-05 12:48:25 +08:00
    如果格式一样,直接放一个文件夹里,然后用 excel 从文件夹查询加载就好了,不过 excel 加载的行数有限制,好像一百多万行
    Croxx
        11
    Croxx  
       2020-08-05 12:50:39 +08:00 via iPhone
    x 产?
    Vegetable
        12
    Vegetable  
       2020-08-05 12:52:58 +08:00
    @LiYanHong #6 这样一般电脑都受不了...
    tmkook
        13
    tmkook  
    OP
    PRO
       2020-08-05 13:37:08 +08:00
    @Croxx 不是 H 产,绝对是正向的!!!
    qiayue
        14
    qiayue  
    PRO
       2020-08-05 13:39:26 +08:00
    转成 csv,用程序处理
    tmkook
        15
    tmkook  
    OP
    PRO
       2020-08-05 13:39:43 +08:00
    @LiYanHong
    @Vegetable
    @xyd1205148795 本来想用 VBA 搞,但是百万级数据还没试过估计会卡死。目前想法是先导入 Mysql 然后再写代码查询去重。
    F281M6Dh8DXpD1g2
        16
    F281M6Dh8DXpD1g2  
       2020-08-05 13:41:46 +08:00
    pandas.read_excel 完事
    cmllwxxl
        17
    cmllwxxl  
       2020-08-05 13:42:10 +08:00
    Snapde 用这个简单
    admin7785
        18
    admin7785  
       2020-08-05 13:44:25 +08:00 via iPhone
    @tmkook #15 百万条数据,字段不多的话( excel 文件不是很大的话),倒入数据库还是可以的,我 60 多兆,倒入半个小时左右
    opengps
        19
    opengps  
       2020-08-05 13:45:06 +08:00
    导入数据库,几行 sql 搞定,不超过 10 分钟
    ccoming
        20
    ccoming  
       2020-08-05 13:48:35 +08:00
    @dexterzzz +1 。power query 好了,16 版本里面就有这组件。
    xinghen57
        21
    xinghen57  
       2020-08-05 14:46:30 +08:00 via iPhone
    1 、转成 csv,找个编辑器(比如 emeditor )直接去重
    2 、导入数据库,去重
    这数据量对 excel 太大了。
    xinghen57
        22
    xinghen57  
       2020-08-05 14:47:42 +08:00 via iPhone
    猛然惊觉,你这是找解决方案来了
    TimePPT
        23
    TimePPT  
    PRO
       2020-08-05 15:45:13 +08:00
    @xinghen57 都转成 csv 了,直接合并了 sort -u 搞定
    594duck
        24
    594duck  
       2020-08-06 12:13:39 +08:00
    最简的就是导入 Access,然后一把搞了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2342 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 03:17 PVG 11:17 LAX 19:17 JFK 22:17
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86