
1 wang2191195 2012-12-14 14:52:04 +08:00 scrapy 你值得拥有 |
2 enj0y 2012-12-14 14:52:54 +08:00 使用云的理念,用访客的资源来爬行,节约服务器资源。。 哈哈,估计这样的网站没有人敢访问。 |
3 kenneth OP |
4 flyingkid 2012-12-14 15:15:59 +08:00 设置一个规则 http://*.hao123.com/* 其他的全部调过。 |
6 zuroc 2012-12-14 15:22:12 +08:00 |
7 zuroc 2012-12-14 15:23:26 +08:00 |
8 momou 2012-12-14 17:16:32 +08:00 |
10 tioover 2012-12-14 18:33:36 +08:00 curl拉下来 然后找出所有<a> |
11 dreampuf 2012-12-14 20:52:43 +08:00 wget -e robots=off -r -T 3 --domains=hao123.com www.hao123.com for i in `find . -iname *.html`; do cat $i | gre "http:" | sed 's/^.*http/http/' | cut -d'"' -f1 | sort -u;done |
12 greatghoul 2012-12-14 21:06:59 +08:00 wget 就搞定了。 |
13 glsee 2012-12-14 22:41:03 +08:00 |
14 barbery 2012-12-15 10:02:08 +08:00 右键网页另存为。。。。用正则提取。。。。 |
15 im924106179 2012-12-15 15:55:22 +08:00 100rmb包搞定 |
16 kenneth OP @im924106179 你能搞定就上代码,100rmb我付你。 |
17 xjay 2012-12-16 14:11:25 +08:00 scrapy 你值得拥有,呵呵。 用CrawlSpider,写好rules规则,然后在parse_item里面就可以处理你要的数据了,再实现一个pipeline数据管道,把你要的数据保存起来,就ok了。 |
18 ccdjh 2012-12-16 15:32:39 +08:00 爬取应该不行,你写个爬虫,总有你控制不住,或者没有那么智能。 你还不如写一个按页抓取的。就是你输入http://www.hao123.com/hardware 把http://www.hao123.com/hardware上的站提取出来,并且转json就好了。没必要钻胡同 |
19 xieranmaya 2012-12-17 19:03:08 +08:00 这样行不行,用jQuery $("a").each(function(){ $("<div></div>").load(this.href).appendTo(document.body); }); |
20 ADIVILOrz 2012-12-18 23:25:07 +08:00 |
21 kenneth OP |
22 bigdude 2012-12-19 13:59:49 +08:00 wget 啊 |
23 IFoon 2012-12-19 16:19:25 +08:00 用采集工具啊。。 www.sensite.cn |
24 adyizhan 2012-12-19 23:16:35 +08:00 @im924106179 怎么联系。 |
25 ADIVILOrz 2012-12-19 23:28:46 +08:00 |
27 ADIVILOrz 2012-12-20 21:00:38 +08:00 @kenneth 看你入什么库,什么表结构。sqlite3,postgresql,mysql都有CLI工具,shell可以直接调用导入文本。 |
28 secretworry 2012-12-20 21:06:22 +08:00 @kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。 其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND) |
29 aksoft 2012-12-21 22:25:35 +08:00 都是NB人,学习下.. |