最近在研究 NLP,很多模型都是需要对数据进行预处理,进行分句、分词。那么,对于英语来说,目前分句、分词最好的或者比较多人用、效果最佳的是什么包(或者方法)呢?
下面给出个人的猜测:
- nltk
- spacy
- 纯正则分割
- 暴力用.分句;用空格分词 ...

最近在研究 NLP,很多模型都是需要对数据进行预处理,进行分句、分词。那么,对于英语来说,目前分句、分词最好的或者比较多人用、效果最佳的是什么包(或者方法)呢?
下面给出个人的猜测:
1 liwl Jan 15, 2019 jiba |
2 liwl Jan 15, 2019 结巴分词 |
3 TotoroSora Jan 15, 2019 via Android 之前做项目用的 nltk,配合正则做一些细节调整。周围人也基本都在用 nltk。 |
4 EPr2hh6LADQWqRVH Jan 15, 2019 英语还用分词?逗我? 英语的词是分好的啊,空格就是分词 |
5 SeaRecluse Jan 15, 2019 英文正则分割最方便,如果效果不好请先清洗数据。 |
6 lumonix Jan 15, 2019 我觉得楼主说的是 phrase finding 吧,应该是类似于这片文章里介绍的 https://dl.acm.org/citation.cfm?id=1119287 |
7 aREMbosAl Jan 15, 2019 英语分词什么意思 |
8 SleipniR Jan 15, 2019 via Android 英语不需要分词,默认空格已经分好了,但是要做词形还原。 |
9 yanaraika Jan 15, 2019 nltk 不知道高到哪里去了 结巴在技术上是在搞笑吗 |