大家对 solr 的多语言处理有什么好的建议吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
smalldirector
V2EX    问与答

大家对 solr 的多语言处理有什么好的建议吗?

  •  
  •   smalldirector 2014-06-13 00:04:52 +08:00 5617 次点击
    这是一个创建于 4173 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前在公司一直在搞solr的多语言处理,发现针对多种语言多个field的做法,其方式和效率简直无法忍受。自己也为此写了一个plugin( https://github.com/smalldirector/solr-multilangs-analyzer )来进行优化,但是一直不确定这种方法是不是其他的公司也实践过,最近为这个问题是相当的苦恼啊,所以想求v2exer给点好的建议。(最好是已经实践过了的^_^)
    4 条回复    2014-06-13 00:46:24 +08:00
    andyhu
        1
    andyhu  
       2014-06-13 00:12:49 +08:00
    不太清楚楼主要做什么,意思是说要把包含多语言语种的文字区别开语言,不同语言用不同分词规律来分词吗?没研究过solr,之前也研究过elasticsearch的多语言处理问题。以前看到过一个商业产品
    http://www.basistech.com/text-analytics/rosette/language-identifier/
    就是价格奇贵
    andyhu
        2
    andyhu  
       2014-06-13 00:30:59 +08:00
    http://www.basistech.com/solutions/search/rosette-for-lucene-solr/
    这东西也不错,据说以前Google都用过他家的解决方案
    andyhu
        3
    andyhu  
       2014-06-13 00:31:24 +08:00
    我下过一个elasticsearch版本的,可以用反编译软件查看到它的源码
    smalldirector
        4
    smalldirector  
    OP
       2014-06-13 00:46:24 +08:00
    @andyhu 非常感谢你意见,我要好好研究下你给的链接内容。

    对于我的需求,就是系统环境可能包含各种语言的邮件内容,甚至是各种语言的混合内容,然后我想找一种合适的解决方案来对这些多语言文本进行很好的处理。最开始的思路就是一种语言对应solr一个字段,然后搜索的时候就去搜索所有的字段,这样子效率太不好了,如果我要支持10种语言,那么就需要10个字段,这样子太暴力了,所以才想着怎么去解决这个问题。这也是我最后没找到合适的方案,才去尝试的修改solr的analyzer,tokenizer以及语言检测的逻辑的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2375 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 15:44 PVG 23:44 LAX 07:44 JFK 10:44
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86