
1 alexkh Jun 4, 2013 jieba分词? |
2 swulling Jun 4, 2013 Python的话,直接Google『中文分词 Python』 中英文混合分析和中文分词有啥区别么。。多出来的英文部分不要太简单 |
4 swulling Jun 4, 2013 |
6 Eson Jun 4, 2013 分词使用的话,其效果我觉得很大程度上取决于你的词典,不然程序再怎么做也不可能尽如人意 |
7 Hualin Jun 4, 2013 先对原文进行正则表达式匹配,把英文单词 数字 符号 和其他非中文字符进行 tokenize,然后把新的序列交给中文分词算法。 比如句子 string1:我爱 python,,, tokenize 为 string2:我爱 `EN`SYM`SYM`SYM` 然后交给中文分词,其中 EN 代表 英文单词特征,SYM代表标点符号特征 然后进行汉字标记 string3:SSSSSS 其中 S 表示单独成词的标记,其他 label 可以为 B (一个长词的开始),M(一个长词的词中),E (一个长词的结束)。英文单词和数字以及标点也被认为是 S (单独成词的汉字)。 |
9 Gestalt Jun 8, 2013 看你对准确度的要求了…… CRF++,用这个实现个中文分词然后训练语料好的话似乎召回率能到97% |