Elasticsearch+ik-analyzer 下,如何实现单字搜索?如“珀”=>“琥珀” - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
dangyuluo

Elasticsearch+ik-analyzer 下,如何实现单字搜索?如“珀”=>“琥珀”

  •  
  •   dangyuluo Sep 5, 2016 9328 views
    This topic created in 3523 days ago, the information mentioned may be changed or developed.

    复现很简单,在某个索引的某个字段中创建一个type: string, analyzer: ik_smart的字段,假设名为 description 。然后填入这么一条数据:“主要经营缅甸琥珀蜜蜡各类产品 翡翠各类成品及半成品 18k 金镶嵌成品 低中高价位齐全 产品款式 大量库存”

    通过 ik_smart 分词器查看其分词结果:(截取部分)

    ... { "token": "琥珀", "start_offset": 6, "end_offset": 8, "type": "CN_WORD", "position": 3 }, ... 

    可以看出琥珀被分为一个词了。那么再进行以下查询,仅查找“珀”字:

    { "query": { "match": { "feature": "珀" } } } 

    结果却找不到该字。我认为原因应该是, ik_smart 将“琥珀”认为是一个词后,为这个词进行了索引。那么搜索“珀”字自然找不到这条数据,只能说ik analyzer太智能了。

    通过测试,发现自带 standard 分词器是可以通过搜索“珀”字,搜索到含有“琥珀”的数据的。原因明显是因为 standard 分词器会拆分每个汉字。

    不知道各位都怎么解决这个问题,谢谢。

    5 replies    2016-09-06 21:03:03 +08:00
    xujif
        1
    xujif  
       Sep 5, 2016
    type 用 phrase 不然就自己添加词库字典
    marffin
        2
    marffin  
       Sep 5, 2016
    同时加一个 1gram 的 analyzer 就好
    lyroge
        3
    lyroge  
       Sep 5, 2016
    添加一列,用 standard 分析器?
    Suclogger
        4
    Suclogger  
       Sep 5, 2016
    建立索引需要细粒度,检索需要粗粒度

    意味着

    index_analyzer 用 ik_max_word
    query_analyzer 用 ik_smart
    woyaojizhu8
        5
    woyaojizhu8  
       Sep 6, 2016
    微软全系的搜索也有这个问题,比如 windows 搜索 , onenote 搜索 , sql server 搜索
    About     Help     Advertise     Blog     API     FAQ     Solana     3199 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 38ms UTC 13:30 PVG 21:30 LAX 06:30 JFK 09:30
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86