求助 现成的正文节点判定的JS库 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐关注
Meteor
JSLint - a Javascript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
Javascript 权威指南第 5 版
Closure: The Definitive Guide
vicwutaojun
V2EX    Javascript

求助 现成的正文节点判定的JS库

  •  
  •   vicwutaojun 2012-10-26 14:31:43 +08:00 4677 次点击
    这是一个创建于 4741 天前的主题,其中的信息可能已经有所发展或是发生改变。
    任意网页内容的正文抽取怎么做?有没有现成的正文节点判定的JS库?

    希望找一个可靠的普适的网页正文节点判断的方法或者实现。估计做搜索、推荐系统、网络爬虫的都会需要。

    求大侠支招。
    12 条回复    2023-01-03 17:06:31 +08:00
    leojoy710
        1
    leojoy710  
       2012-10-26 14:38:02 +08:00   1
    vicwutaojun
        2
    vicwutaojun  
    OP
       2012-10-26 15:19:51 +08:00
    @leojoy710 不知道您有没有用过他的这个实现?日文,偶不懂啊:)
    dingstyle
        3
    dingstyle  
       2012-10-26 15:28:09 +08:00   1
    leojoy710
        4
    leojoy710  
       2012-10-26 15:39:07 +08:00
    @vicwutaojun evernote之前的chrome插件就是用的这个...现在的没关注了
    至于日语...看看代码应该挺好懂的...正文识别的准确率也还不错...
    vicwutaojun
        5
    vicwutaojun  
    OP
       2012-10-26 15:49:16 +08:00
    @leojoy710 原来clearly是基于这个的,那就应该没有问题了。哈哈,非常感谢!不知哥你主要做哪方面呢?
    leojoy710
        6
    leojoy710  
       2012-10-26 15:55:02 +08:00
    @vicwutaojun 不是clearly...我之前看的是那个webclipper...clearly没看过...
    vicwutaojun
        7
    vicwutaojun  
    OP
       2012-10-26 17:05:05 +08:00
    @dingstyle 好像还不错,我待会看看。
    cattail
        8
    cattail  
       2012-11-28 18:51:45 +08:00   2
    这是我经过查阅大量资料得出的结论,可以看下。
    http://cattail2012.wordpress.com/2012/11/26/%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96/
    gockxml
        9
    gockxml  
       2012-12-26 13:30:13 +08:00
    @cattail Clearly说的不准确,因为我曾经几乎一行一行读过Clearly的代码。它的做法是:先根据类似于标签/链接密度的方法得到最可能的正文块,因为正文块里也可能包换密集的链接块/小图片/iframe广告等,它再针对正文块做一次过滤。关于正文块的相关方法,例如exploreNodeAndGetStuff, processCandidates
    vicwutaojun
        10
    vicwutaojun  
    OP
       2012-12-29 09:42:35 +08:00
    @gockxml 哈哈,可否问一下你当时因为什么做正文节点判断或者正文抽取?
    gockxml
        11
    gockxml  
       2012-12-29 20:30:25 +08:00
    @vicwu 哈哈,大概下周或下下周就在V2EX发布,敬请期待~:)
    wenguangfe
        12
    wenguangfe  
       2023-01-03 17:06:31 +08:00
    我开发的扩展就是基于自己研发的识别算法。目前遇到的问题是盈利模式,看到题主说 搜索、推荐系统、网络爬虫,这些可以详细展开说说吗?感兴趣的小伙伴也可以下载体验识别能力 https://chrome.google.cm/webstore/detail/circle-reader/dhpfcgilccfkodnhbllpiaabofjbjcbg
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2784 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 13:02 PVG 21:02 LAX 06:02 JFK 09:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86