
1 hjc4869 Jun 7, 2015 |
2 oott123 Jun 7, 2015 via Android 这算法不难吧,Readability 啊 Pocket 之类的不就有类似的嘛。 |
3 isaced Jun 7, 2015 真厉害,试了下 cnBeta、36Kr、SegmentFault,甚至连我一个人博客随便一篇文章都能识别出来... |
4 wy315700 Jun 7, 2015 这不就是搜索引擎的技术吗, |
5 also24 Jun 7, 2015 以前似乎是直接抓取 description 的,不知道现在是怎样 |
9 Laforet Jun 7, 2015 现在机械语义分析可用性已经很高了,比如下面这个bot https://www.reddit.com/user/bitofnewsbot 还有上次推特财报被提前公布也是用了爬虫+语义分析,跳过人工审阅直接发新闻。 |
12 binux Jun 7, 2015 |
14 icedx Jun 7, 2015 via Android Verizon 家的Message+ 表示不服 |
15 inmyfree Jun 7, 2015 哈哈,推荐我写的一个小东东哈,基于readability 比如我的一个[博客](http://www.mk5i.com/opensource_workplan/) [效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/) [开源项目git地址](https://github.com/inmyfree/readability) |
16 0x17e Jun 8, 2015 新闻类的页面的正文提取是最简单的,包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX,如果能把每个回复都单独提取出来合并成正文,那么才算是厉害的算法,可惜目前主流的笔记软件好像还没有这样的功能,除了某些采集软件。 |