V2EX URL2io 的所有回复 第 1 页 / 共 3 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    URL2io    全部回复第 1 页 / 共 3 页
回复总数  45
1  2  3  
2019-10-09 14:33:01 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
2017-04-25 08:55:15 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@qsnow6 可以,但别用大并发^_^
2017-04-02 23:35:15 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@dreamcog 加 QQ 群吧 341180183 小窗聊
2017-03-10 19:52:21 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@dreamcog 目前不收费的哈,会一直做下去的 ,请放心使用。^_^
2016-11-20 20:24:13 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下
2016-11-06 21:41:38 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@ ldehai 不知道该说什么好……
2016-10-31 15:59:30 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@soulmine 感谢使用!

1. 验证外链是否失效不会出现在正文提取阶段,所以对于外链失效就要自己想办法了,毕竟还有 src 在。
2. 这次发布是 URL2Article ,顾名思义适用范围是新闻,博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务,那它返回的字段肯定完全不同,比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题,还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的,所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果,可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了,而且严重依赖原站的 CSS 设计,所以如果不能提取出第 2 条所说的那些字段,要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项,只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊?
2016-10-30 01:40:29 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@ghosrt 不做语义分析,要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了,哈哈
2016-10-13 11:48:09 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@nicoljiang 可以的啊, blog 是托管在 github 上的,这两天习惯性抽风,要多刷几次 -_-
2016-10-11 12:56:08 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@Youen 撸种子?? How ??
2016-10-11 12:55:00 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@Yeoman ()
2016-10-11 12:46:12 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@jeremaihloo 恩,速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块 ,这是一大优点。不过因此也带来了一些限制。因为使用行分块,所以提取前要去除 html tag ,这样就只能提取出文字内容了,顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难,因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。
2016-10-10 21:45:13 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@typcn 和 import 没法比啊,它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能,让大家可以集成到自己的软件系统中(或许也可以集成到 import 中)。两者的关系更像是框架与库的关系。

目前有关 js 动态渲染的东西都不支持,不过图片 lazyload 之后会支持的……

方便贴一下“列表页面第一项被识别成标题”的网址吗?目前在对正文提取做优化,十分需要这种提取效果不好的样本……
2016-10-10 14:03:16 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@tinyproxy 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持,要渲染 js 的开销太大了。 虽然它的接口

https://zhuanlan.zhihu.com/api/posts/21454432

还是挺好找的,不过现在还没有找到一种高效、普适的方法,就没有处理这种情况。

PS :看完你推荐的这个网页,我内心涌起了想要为知乎日报做特殊处理的冲动 -_-
2016-10-10 13:44:37 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@ljcarsenal 已经解决,感谢反馈!
2016-10-08 17:00:29 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@olbb 可以的,请求时带上 next 参数,在返回的数据中就会包含当前网页的下一页链接(如果有的话)。

* 具体文档可以看 http://www.url2io.com/docs
* 具体示例可以看 pageless ,它就利用了这个特性,实现持续地加载分页中的正文内容

其实帖子中都写了的…… -_-
2016-10-07 17:00:43 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@HanSonJ 是有点…… -_- ,哈哈 偷懒了
2016-10-07 14:10:12 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@HanSonJ 其中有什么不妥的地方吗?
2016-10-06 15:43:02 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@v9ox 墙太高不好翻啊 ()
2016-10-05 23:12:01 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io 提供简单、强大的网页正文提取服务
@jqw1992
@Warder 感谢支持!
1  2  3  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2379 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 12ms UTC 10:22 PVG 18:22 LAX 02:22 JFK 05:22
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86