
1 rpman Nov 30, 2021 起码得有点机器学习基础吧 要超越 jieba 的话, https://github.com/hankcs/HanLP 了解一下, 甚至可以基于他做多任务蒸馏 |
2 menc Nov 30, 2021 直接看 jieba 分词的源码就行。 jieba 分词用的是传统方式,在不开隐马尔科夫模型的时候,是一个很基本的前向最大匹配和后向最大匹配算法,不需要数学知识。 建议看 jieba 早期的一些源码,没有现在这么多东西 |
5 rpman Nov 30, 2021 @flyhelan 不知道你的学习目标是什么. 单纯说 jieba 的话它基本已经停更了, 更多只是作为一个 baseline 而存在, 或者只是单纯的路径依赖. 在真实生产上对准确率有一点要求都不会考虑它. 顺便一提即使是 jieba, 在末期的版本也已经用上了深度学习, 虽然效果还是落后. |
8 rpman Nov 30, 2021 |
10 xingshu1990 Nov 30, 2021 有几楼偏了,不过……好像……偏的又合理。 第三方库的第一次出现,都是作者本身有一些需求,然后慢慢完善起来,慢慢的功能通用起来。 建议从 jieba 上传的第一份代码开始看起,看看每次更新了什么内容,为了完成什么需求,然后自己跟着一个字母一个字母敲了,调试。 |