有个奇怪的 MatchPhrase 和 MatchPhrasePrefix 的问题,求大佬帮忙分析 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mosliu
V2EX    Elasticsearc

有个奇怪的 MatchPhrase 和 MatchPhrasePrefix 的问题,求大佬帮忙分析

  •  
  •   mosliu 2020-10-19 16:51:42 +08:00 2112 次点击
    这是一个创建于 1818 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有条数据,使用MatchPhrasePrefix能搜出来,使用MatchPhrase搜不出来。 数据中 content 包含 山东核能 推介会 关键词

    个人分析是推介会分词中的会,在句子分词中没有体现,导致 MatchPhrase 搜不出来。但是 MatchPhrasePrefix 可以 这种情况有人遇到过么?使用 MatchPhrase 有什么好办法么?

    有人测试过这两个的速度么 如果使用 MatchPhrasePrefix,将 maxExpansions 设定到 100 的话 速度上会慢很多么?

    环境信息

    ES 版本有点老 5.6.4 字段分词采用的 ik_max_word 分词 数据量亿级

    相应句子分词结果

    “山东核能装备产业推介会在山东荣成召开” 分词为

    • 山东 核能 装备 产业 推介会 推介 会在 山东 荣成 召开 “山东核能”分词结果为
    • 山东 核能 “推介会”分词结果为
    • 推介会 推介 会

    代码

     BoolQueryBuilder should1 = QueryBuilders.boolQuery() .should(QueryBuilders.matchPhraseQuery("title", "山东核能").slop(slop)) .should(QueryBuilders.matchPhraseQuery("content", "山东核能").slop(slop)) // .should(QueryBuilders.matchPhrasePrefixQuery("title", "山东核能").maxExpansions(100)) // .should(QueryBuilders.matchPhrasePrefixQuery("content", "山东核能").maxExpansions(100)) .minimumShouldMatch(1) ; BoolQueryBuilder should2 = QueryBuilders.boolQuery() .should(QueryBuilders.matchPhraseQuery("title", "推介会").slop(slop)) .should(QueryBuilders.matchPhraseQuery("content", "推介会").slop(slop)) // .should(QueryBuilders.matchPhrasePrefixQuery("title", "推介会").maxExpansions(100)) // .should(QueryBuilders.matchPhrasePrefixQuery("content", "推介会").maxExpansions(100)) .minimumShouldMatch(1) ; 

    注释掉的是 matchPhrasePrefix 是能搜出来的

    数据部分为:

    "title": "一批核能产业创新项目落地山东", "content": " 今天上午,山东核能装备产业推介会在山东荣成召开,一批核能产业创新项目集中落地。此次落地的核能产业创新项目,涵盖核能供热、技术研发、金属防护、设备检修等领域。其中,<a href="https://www.ironge.com.cn">融易资讯网( www.ironge.com.cn )</a>,核电仪控设备研发平台,定位解决三代核电卡脖子问题的技术研发和产品制造;核电站全生命周期金属防护实验平台,将使核电站防腐技术达到国际领先水平;国核示范电站核能供暖项目,能够满足 40 万人口的冬季供热需求。" 
    1 条回复    2020-11-06 21:13:14 +08:00
    ksedz
        1
    ksedz  
       2020-11-06 21:13:14 +08:00
    我记得遇到过这个问题,就是因为 prefix 会检查下一个词,如果当前的剩余部分是下个词的前缀也认为是匹配成功。按理说速度不会差多少,没什么耗性能的操作,需要实际测试。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1159 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 152ms UTC 17:48 PVG 01:48 LAX 10:48 JFK 13:48
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86