elasticsearch/lucene 怎么优化多语言搜索? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
yodhcn
V2EX    程序员

elasticsearch/lucene 怎么优化多语言搜索?

  •  
  •   yodhcn
    yodhcn 2023-12-25 13:07:06 +08:00 2329 次点击
    这是一个创建于 735 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如说,一个文档包含以下 3 个字段:
    - title_cn # 中文标题
    - title_ja # 日文标题
    - title_ko # 韩文标题

    需求:无论搜索哪种语言的标题中的关键字,都能搜索到该文档

    解决方案一:
    [写索引] 为每个字段各建立一个索引,分别设置不同的 analyzer 。
    [查索引] "query" match title_cn OR "query" match title_ja OR "query" match title_ko
    优点:为每种语言配置不同的语言专用的分词器,分词效果好
    缺点:3 个字段分别映射到 3 个倒排索引,搜索时需要到 3 个索引上查找,效率低

    解决方案二:
    [写索引] 3 个字段通过 copy_to 复制到一个字段,建立一个索引,设置一个语言不敏感的 analyzer ,比如基于 ngram 算法的分词器。
    [查索引] "query" match title_all
    优点:搜索时只需到 1 个索引上查找,效率高
    缺点:分词效果不如对应语言专用的分词器,分词效果差

    解决方案三(与方案二基本相同,区别只在 analyzer ):
    [写索引] 3 个字段通过 copy_to 复制到一个字段,建立一个索引,设置一个能自动检测语言的 analyzer (实现方式:先检测文本的语言,再使用对应语言专用的分词器分词)
    [查索引] "query" match title_all
    优点:搜索时只需到 1 个索引上查找,效率高
    缺点:如果检测语言的准确率较低,会导致内部使用错误的分词器,最终影响 [写索引] [查索引] 的分词

    方案一 & 方案二各有利弊;
    方案三似乎解决了问题,但 [自动检测语言] 引入了新的不确定性

    矛盾点:
    期望不同字段用不同的分词器,并将分词后的词元写入同一个倒排索引。
    但是 match 搜索操作,需要对 "query" 也进行分词,所以分词器不同的字段,虽然可以写入到一个索引,但在搜索时无法确定该用哪个分词器对 "query" 分词。

    问题:大家遇到过类似的场景吗?又用的哪种方案解决的?
    9 条回复    2023-12-25 20:09:16 +08:00
    yodhcn
        2
    yodhcn  
    OP
       2023-12-25 14:49:31 +08:00
    @ericguo #1 这个分词器不是只适配了中文&英文吗?
    matrix1010
        4
    matrix1010  
       2023-12-25 17:41:33 +08:00 via iPhone
    专用分词器是指带词库的那种?短文本 title 很适合 ngram ,长文本由于各类干扰词很多而且为了缩减总 token 量才需要词库
    skymei
        5
    skymei  
       2023-12-25 17:45:25 +08:00
    方案 1 就挺好,你说的效率低是指的什么情况?搜索速度么,正常 match 的话速度是很快,不会有明显的速度的差异感知
    zuixinwenyue
        6
    zuixinwenyue  
       2023-12-25 18:19:30 +08:00
    +1 ,感觉方案 1 比较好,效率问题待验证就是
    lix7
        7
    lix7  
       2023-12-25 18:46:57 +08:00
    一般都是方案一,没啥性能问题
    kuituosi
        8
    kuituosi  
       2023-12-25 18:57:45 +08:00
    明显是 1 ,关键词可以识别出语言,直接在一种语言是查询
    sadfQED2
        9
    sadfQED2  
       2023-12-25 20:09:16 +08:00 via Android
    方案 1 ,不会有性能问题,你太小看 es 了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2278 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 16:01 PVG 00:01 LAX 08:01 JFK 11:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86