关于中英文分词的疑问

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 4709 days ago, the information mentioned may be changed or developed.

文章中混合有英文，中文的用什么词库分词呢。

分词

词库

中英文

9 replies 1970-01-01 08:00:00 +08:00

alexkh

Jun 4, 2013

jieba分词？

swulling

Jun 4, 2013

Python的话，直接Google『中文分词 Python』

中英文混合分析和中文分词有啥区别么。。多出来的英文部分不要太简单

kenneth

Jun 4, 2013

@alexkh jieba不错，是一个中文分词，我想如何中文和英文都有，那也一样的？

@swulling 肯定有区别。只是不知道区别在哪里。

swulling

Jun 4, 2013

@kenneth http://jiebademo.ap01.aws.af.cm/

kenneth

Jun 4, 2013

@swulling 感觉分词效果也不是很好，语料库还是不够。

Eson

Jun 4, 2013

分词使用的话，其效果我觉得很大程度上取决于你的词典，不然程序再怎么做也不可能尽如人意

Hualin

Jun 4, 2013

先对原文进行正则表达式匹配，把英文单词数字符号和其他非中文字符进行 tokenize，然后把新的序列交给中文分词算法。
比如句子
string1：我爱 python，，，
tokenize 为
string2：我爱 `EN`SYM`SYM`SYM`
然后交给中文分词，其中 EN 代表英文单词特征，SYM代表标点符号特征
然后进行汉字标记
string3：SSSSSS
其中 S 表示单独成词的标记，其他 label 可以为 B （一个长词的开始），M（一个长词的词中），E （一个长词的结束）。英文单词和数字以及标点也被认为是 S （单独成词的汉字）。

buru

Jun 8, 2013

@Hualin 你好，想问一下，你有用过elasticsearch吗？可否把这个步骤也交给它进行处理？

Gestalt

Jun 8, 2013

看你对准确度的要求了……
CRF++，用这个实现个中文分词然后训练语料好的话似乎召回率能到97%