Elasticsearch 数据导入求助~ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
gejigeji
V2EX    程序员

Elasticsearch 数据导入求助~

  •  
  •   gejigeji 2016-07-29 10:39:13 +08:00 4695 次点击
    这是一个创建于 3368 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有 10+亿条数据有检索需求,现在是每条一行存在文件里(不是 json ,字段\t 间隔),请问有什么好的方法批量的导入到 Elasticsearch ?

    12 条回复    2018-02-09 12:31:50 +08:00
    Suclogger
        1
    Suclogger  
       2016-07-29 10:51:58 +08:00
    solr 可以导入文件, solr 和 elasticserch 底层实现都是 lucense ,用 solr 导入后将索引迁移到 elasticsearch
    (没实践过,瞎猜的)
    shoumu
        2
    shoumu  
       2016-07-29 11:12:24 +08:00
    写个脚本,把文件中的数据读出来,然后建索引
    gejigeji
        3
    gejigeji  
    OP
       2016-07-29 11:19:51 +08:00
    @shoumu 读出来,包成 json ,再一条条 curl 吗? 我是觉得麻烦,效率低,懒
    defunct9
        4
    defunct9  
       2016-07-29 11:23:08 +08:00
    defunct9
        5
    defunct9  
       2016-07-29 11:24:04 +08:00
    有批量的。格式有变化

    /posts/post/_bulk

    {"index":{"_index":"posts","_type":"post","_id":634}}
    {"title":"","content":"","slug"......}
    {"index":{"_index":"posts","_type":"post","_id":635}}
    {"title":"","content":"","slug"......}
    knightdf
        6
    knightdf  
       2016-07-29 11:27:44 +08:00
    多进程 bulk 最快了,我做的时候速度可以达到 2500doc/s , 不过在数据量大后频繁的做 merge 就会慢很多
    gejigeji
        7
    gejigeji  
    OP
       2016-07-29 15:43:16 +08:00
    @knightdf
    @defunct9
    感谢 2500 doc/s 还是慢啊,可能我 doc 比较短会快点,不过我还是先试试 solr ,“据说”支持文档导入,非实时索引的检索性能也好一些
    jaymiao
        8
    jaymiao  
       2016-07-29 16:44:48 +08:00
    用 logstash, 可以配置进程数量,只要你的 ES 足够强就行。
    knightdf
        9
    knightdf  
       2016-07-29 22:03:53 +08:00
    @gejigeji 我是录入的全网页的内容,内容比较大把
    gqlxj1987
        10
    gqlxj1987  
       2016-07-31 08:43:35 +08:00
    用 logstash 。。 bulk 部分,感觉后期不可控。
    jahan
        11
    jahan  
       2018-02-09 12:30:41 +08:00
    借楼询问。
    同样是很多带有分隔符的数据库导出文件,想导入 elasticsearch,有没有现成的工具或者 python 脚本?
    有没有可视化配置的工具呢? logstash ?
    jahan
        12
    jahan  
       2018-02-09 12:31:50 +08:00
    @shoumu 写脚本的意思是将每一行转换成 json ?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2476 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 11:11 PVG 19:11 LAX 04:11 JFK 07:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86