任意网页内容的正文抽取怎么做?有没有现成的正文节点判定的JS库?
希望找一个可靠的普适的网页正文节点判断的方法或者实现。估计做搜索、推荐系统、网络爬虫的都会需要。
求大侠支招。
希望找一个可靠的普适的网页正文节点判断的方法或者实现。估计做搜索、推荐系统、网络爬虫的都会需要。
求大侠支招。

1 leojoy710 Oct 26, 2012 hatena-extract-content https://github.com/hatena/extract-content-Javascript |
2 vicwutaojun OP @leojoy710 不知道您有没有用过他的这个实现?日文,偶不懂啊:) |
3 dingstyle Oct 26, 2012 node-readability: https://github.com/arrix/node-readability |
4 leojoy710 Oct 26, 2012 @vicwutaojun evernote之前的chrome插件就是用的这个...现在的没关注了 至于日语...看看代码应该挺好懂的...正文识别的准确率也还不错... |
5 vicwutaojun OP @leojoy710 原来clearly是基于这个的,那就应该没有问题了。哈哈,非常感谢!不知哥你主要做哪方面呢? |
6 leojoy710 Oct 26, 2012 @vicwutaojun 不是clearly...我之前看的是那个webclipper...clearly没看过... |
7 vicwutaojun OP @dingstyle 好像还不错,我待会看看。 |
8 cattail Nov 28, 2012 这是我经过查阅大量资料得出的结论,可以看下。 http://cattail2012.wordpress.com/2012/11/26/%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96/ |
9 gockxml Dec 26, 2012 @cattail Clearly说的不准确,因为我曾经几乎一行一行读过Clearly的代码。它的做法是:先根据类似于标签/链接密度的方法得到最可能的正文块,因为正文块里也可能包换密集的链接块/小图片/iframe广告等,它再针对正文块做一次过滤。关于正文块的相关方法,例如exploreNodeAndGetStuff, processCandidates |
10 vicwutaojun OP @gockxml 哈哈,可否问一下你当时因为什么做正文节点判断或者正文抽取? |
12 wenguangfe Jan 3, 2023 我开发的扩展就是基于自己研发的识别算法。目前遇到的问题是盈利模式,看到题主说 搜索、推荐系统、网络爬虫,这些可以详细展开说说吗?感兴趣的小伙伴也可以下载体验识别能力 https://chrome.google.com/webstore/detail/circle-reader/dhpfcgilccfkodnhbllpiaabofjbjcbg |