求助现成的正文节点判定的JS库

推荐关注

Meteor

JSLint - a Javascript code quality tool

jsFiddle

D3.js

WebStorm

推荐书目

Javascript 权威指南第 5 版

Closure: The Definitive Guide

This topic created in 4960 days ago, the information mentioned may be changed or developed.

任意网页内容的正文抽取怎么做？有没有现成的正文节点判定的JS库？

希望找一个可靠的普适的网页正文节点判断的方法或者实现。估计做搜索、推荐系统、网络爬虫的都会需要。

求大侠支招。

正文

节点

12 replies 2023-01-03 17:06:31 +08:00

leojoy710

Oct 26, 2012

hatena-extract-content
https://github.com/hatena/extract-content-Javascript

vicwutaojun

Oct 26, 2012

@leojoy710 不知道您有没有用过他的这个实现？日文，偶不懂啊：）

dingstyle

Oct 26, 2012

node-readability:
https://github.com/arrix/node-readability

leojoy710

Oct 26, 2012

@vicwutaojun evernote之前的chrome插件就是用的这个...现在的没关注了
至于日语...看看代码应该挺好懂的...正文识别的准确率也还不错...

vicwutaojun

Oct 26, 2012

@leojoy710 原来clearly是基于这个的，那就应该没有问题了。哈哈，非常感谢！不知哥你主要做哪方面呢？

leojoy710

Oct 26, 2012

@vicwutaojun 不是clearly...我之前看的是那个webclipper...clearly没看过...

vicwutaojun

Oct 26, 2012

@dingstyle 好像还不错，我待会看看。

cattail

Nov 28, 2012

这是我经过查阅大量资料得出的结论，可以看下。
http://cattail2012.wordpress.com/2012/11/26/%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96/

gockxml

Dec 26, 2012

@cattail Clearly说的不准确，因为我曾经几乎一行一行读过Clearly的代码。它的做法是：先根据类似于标签/链接密度的方法得到最可能的正文块，因为正文块里也可能包换密集的链接块/小图片/iframe广告等，它再针对正文块做一次过滤。关于正文块的相关方法，例如exploreNodeAndGetStuff, processCandidates

vicwutaojun

Dec 29, 2012

@gockxml 哈哈，可否问一下你当时因为什么做正文节点判断或者正文抽取？

gockxml

Dec 29, 2012

@vicwu 哈哈，大概下周或下下周就在V2EX发布，敬请期待~:)

wenguangfe

Jan 3, 2023

我开发的扩展就是基于自己研发的识别算法。目前遇到的问题是盈利模式，看到题主说搜索、推荐系统、网络爬虫，这些可以详细展开说说吗？感兴趣的小伙伴也可以下载体验识别能力 https://chrome.google.com/webstore/detail/circle-reader/dhpfcgilccfkodnhbllpiaabofjbjcbg

求助 现成的正文节点判定的JS库

求助现成的正文节点判定的JS库