理论上爬虫能爬取到所有我们看到的页面吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 4411 days ago, the information mentioned may be changed or developed.

如果每次浏览器和服务器的通信都有一个token，而我们又无法看懂到底是什么，那么我们的爬虫是不是就无法爬取页面信息了啊?

11 replies 2014-04-29 10:18:33 +08:00

Esay

Apr 2, 2014

是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。

asing

Apr 2, 2014

lz的问题可以这样理解不

如果一个网站的管理后台路径是example.com/ksdks31
这样爬虫也抓取不到吧

这样只需书签下地址就可以，也不用做ip访问限制等策略了.

jsonline

Apr 2, 2014 via Android

天天有人研究爬虫

binux

Apr 2, 2014

我们看到页面是一个获得信息，消除信息不确定性的过程，爬虫也是

dorentus

Apr 2, 2014

理论上么，爬虫和浏览器一样都是 user agent，自然能做的东西都是一样的……

cxh116

Apr 2, 2014

像某些小说站,内容都生成图片了,这个应该是无法索引

msg7086

Apr 2, 2014

@asing 说不定就有浏览器连书签也爬虫给你看

xh1994

Apr 3, 2014

不能！那些通过 ajax 加载内容的页面你怎么爬？而且现在这样的页面越来越多了！

mengli

Apr 3, 2014 via Android

@cxh116 弄个orc文字识别如何？你总不可能把文章加工的很验证码一样。

cxh116

Apr 6, 2014

@mengli ocr的话,不同的站用不同的字体,而且还有很多站加了背景图之类的

通用的蜘蛛实现是比较难,针对每个站写定向蜘蛛肯定是没有问题

zoosucker

Apr 29, 2014

@xh1994 我用selenium + Python做的一个爬虫，类似自己一个一个点击，这样就可以搞定Ajax的了。