目前在公司一直在搞solr的多语言处理,发现针对多种语言多个field的做法,其方式和效率简直无法忍受。自己也为此写了一个plugin( https://github.com/smalldirector/solr-multilangs-analyzer )来进行优化,但是一直不确定这种方法是不是其他的公司也实践过,最近为这个问题是相当的苦恼啊,所以想求v2exer给点好的建议。(最好是已经实践过了的^_^)

1 andyhu Jun 13, 2014 不太清楚楼主要做什么,意思是说要把包含多语言语种的文字区别开语言,不同语言用不同分词规律来分词吗?没研究过solr,之前也研究过elasticsearch的多语言处理问题。以前看到过一个商业产品 http://www.basistech.com/text-analytics/rosette/language-identifier/ 就是价格奇贵 |
2 andyhu Jun 13, 2014 http://www.basistech.com/solutions/search/rosette-for-lucene-solr/ 这东西也不错,据说以前Google都用过他家的解决方案 |
3 andyhu Jun 13, 201 我下过一个elasticsearch版本的,可以用反编译软件查看到它的源码 |
4 smalldirector OP @andyhu 非常感谢你意见,我要好好研究下你给的链接内容。 对于我的需求,就是系统环境可能包含各种语言的邮件内容,甚至是各种语言的混合内容,然后我想找一种合适的解决方案来对这些多语言文本进行很好的处理。最开始的思路就是一种语言对应solr一个字段,然后搜索的时候就去搜索所有的字段,这样子效率太不好了,如果我要支持10种语言,那么就需要10个字段,这样子太暴力了,所以才想着怎么去解决这个问题。这也是我最后没找到合适的方案,才去尝试的修改solr的analyzer,tokenizer以及语言检测的逻辑的。 |