
http://anynb.com 是开源 ourjs 的一个 DEMO 网站,原来只爬了一些知名的博客,后来发现还是有些人访问的。
现在加入了三大门的网站股票频道新闻,为了避免法律风险只爬了标题和链接,内容指向原文
最新开源代码在 0.1.1 的分支 https://github.com/newghost/ourjs/tree/0.1.1 可能不稳定
稳定简单版的代码可查看默认分支 https://github.com/newghost/ourjs/tree/0.1.x
1 yh7gdiaYW 2016 年 1 月 18 日 时间字体太难看了啊 |
3 figofuture 2016 年 1 月 18 日 只是爬爬新闻还好,先马克下。 |
4 GhostEX 2016 年 1 月 18 日 有意思啊,整站花了多久做出来的? |
5 master13 2016 年 1 月 18 日 所以,你认为只要把内容指向原文就能“避免法律风险”吗? |
8 fising 2016 年 1 月 18 日 有什么意义吗。 |
10 Andy00 2016 年 1 月 18 日 想求教一下题主是如何保证抓取每个页面都能拿到标题?是统一用 h1 标签抓取的吗? |
13 Andy00 2016 年 1 月 18 日 还是不太懂,求教题主细说一下 我之前的做法都是把整个页面拿下来然后用用正则表达式提取,所以需要去找每个网站的页面 html 代码然后写对应的正则,感觉这种做法效率太低了,求教更高效的做法 |
14 onion83 2016 年 1 月 18 日 那个进度条对于视频网站才有意义,一般的文字网站我觉得太晃眼了。 |
15 newghost OP @Andy00 anynb 全部使用 Javascript(DOM),用 Javascript 操作DOM再简单不过了。你可以参考以下技术 https://github.com/atom/electron https://github.com/nwjs/nw.js http://phantomjs.org/ 有空我会整理一篇文章出来…… |
17 Andy00 2016 年 1 月 18 日 学习了学习了! 我之前都是用 java 写,感觉入了个坑。。。决定转投 js 了 |
18 magicdawn 2016 年 1 月 18 日 可以直接从 chrome devtools 复制出 selector, 放到 cheerio 的 selector 里...完美 其他语言, BeautifulSoup / CsQuery / goquery 应该也可以, 估计要改改... 这个 node 的 cheerio 真是无敌了 |
20 cheneydog 2016 年 1 月 18 日 下一步添加市场情绪分析吧。 |
21 magicdawn 2016 年 1 月 19 日 @newghost 那这个 DOM 动态渲染你是咋做的~ 我觉得 DOM 动态渲染分两种, 一种是 ajax 接口然后去渲染, 一种是淘宝那样, 内嵌 js 数据, 去渲染 前面一种直接用它接口就好, 后面估计要去找 js |
24 magicdawn 2016 年 1 月 19 日 |
28 kelaodo 2016 年 1 月 20 日 赞一个 |