关于中英文分词的疑问 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
kenneth

关于中英文分词的疑问

  •  
  •   kenneth Jun 4, 2013 4127 views
    This topic created in 4709 days ago, the information mentioned may be changed or developed.
    文章中混合有英文,中文的用什么词库分词呢。
    9 replies    1970-01-01 08:00:00 +08:00
    alexkh
        1
    alexkh  
       Jun 4, 2013
    jieba分词?
    swulling
        2
    swulling  
       Jun 4, 2013
    Python的话,直接Google『中文分词 Python』

    中英文混合分析和中文分词有啥区别么。。多出来的英文部分不要太简单
    kenneth
        3
    kenneth  
    OP
       Jun 4, 2013
    @alexkh jieba不错,是一个中文分词,我想如何中文和英文都有,那也一样的?

    @swulling 肯定有区别。只是不知道区别在哪里。
    swulling
        4
    swulling  
       Jun 4, 2013
    kenneth
        5
    kenneth  
    OP
       Jun 4, 2013
    @swulling 感觉分词效果也不是很好,语料库还是不够。
    Eson
        6
    Eson  
       Jun 4, 2013
    分词使用的话,其效果我觉得很大程度上取决于你的词典,不然程序再怎么做也不可能尽如人意
    Hualin
        7
    Hualin  
       Jun 4, 2013   1
    先对原文进行正则表达式匹配,把英文单词 数字 符号 和其他非中文字符进行 tokenize,然后把新的序列交给中文分词算法。
    比如句子
    string1:我爱 python,,,
    tokenize 为
    string2:我爱 `EN`SYM`SYM`SYM`
    然后交给中文分词,其中 EN 代表 英文单词特征,SYM代表标点符号特征
    然后进行汉字标记
    string3:SSSSSS
    其中 S 表示单独成词的标记,其他 label 可以为 B (一个长词的开始),M(一个长词的词中),E (一个长词的结束)。英文单词和数字以及标点也被认为是 S (单独成词的汉字)。
    buru
        8
    buru  
       Jun 8, 2013
    @Hualin 你好,想问一下,你有用过elasticsearch吗?可否把这个步骤也交给它进行处理?
    Gestalt
        9
    Gestalt  
       Jun 8, 2013
    看你对准确度的要求了……
    CRF++,用这个实现个中文分词然后训练语料好的话似乎召回率能到97%
    About     Help     Advertise     Blog     API     FAQ     Solana     921 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 22:34 PVG 06:34 LAX 15:34 JFK 18:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86