
写了一个基于 Tornado 的图片爬虫: https://github.com/RealHacker/python-gems/tree/master/image_crawler
成果展示:

只需要两步:
- 在 ini 文件中设置几个选项:
; start url for crawler starturl = http://pic.kdslife.com/ ; regexes for links and image urls linkregex=http://pic.kdslife.com/content_.*.html imgregex=http://img.club.pchome.net/.*.jpg ; integer>=1, larger politeness means slower crawling ; but also less likely to be denied service politeness=3 ; the directory to store the downloaded images imgdir=E:/kds/ ; the min size of images that you want to download minwidth=200 minheight=200 python crawler.py http://start-url-to-crawl然后就等着收获吧!
欢迎报 bug ,提需求。
1 Tink PRO 原来大家都好这口 |
2 wangleineo OP @Tink 人家只是研究爬虫,图片看也不看全删掉的 :) |
3 Tink PRO @wangleineo 大家都懂 233 |
4 kchum 2015-09-22 00:25:28 +08:00 via iPad 先收藏 |
5 veau 2015-09-22 07:59:27 +08:00 原来大家都好这口 |
6 vietor 2015-09-22 08:26:35 +08:00 via Android 加数据库支持,关键字搜索, Web 预览,才行 |
7 radio777 2015-09-22 10:06:32 +08:00 硬盘不够大啊 |
8 alohathomas 2015-09-22 11:38:10 +08:00 小白表示不知道怎么用。 |
10 nisnaker 2015-09-22 11:55:13 +08:00 我靠, v2 真有人叫 all |
11 jamesfuxk 2015-09-22 14:02:15 +08:00 请问下,你是针对什么网站爬的? |
12 zkzipoo 2015-09-22 14:54:47 +08:00 1.登陆模块? 2.命名规则? |
13 zhajming 2015-09-22 15:14:25 +08:00 |
14 onlyxuyang 2015-09-22 18:52:01 +08:00 via Android @zhajming 有水印 非高清 …… 差评…… 不抓…… |
15 wangleineo OP @vietor 额 scrapy 好像都没有这么多功能吧 @jamesfuxk 图片站 @zkzipoo 命名规则现在就是简单的 4 位数字 @zhajming @onlyxuyang 只是拿这个站做个例子,改配置就可以爬别的网站。 |
16 scenix 2015-09-23 12:56:48 +08:00 哈哈 你这是把全站都爬下来的节奏啊。 我闲着没事写过一个从 1024 指定帖子页爬图转成 PDF 的,众所周知的原因还支持 socks5 代理。 https://github.com/scenix007/1024toPDF |
17 gaocegege 2015-09-23 22:34:52 +08:00 咋不用 scrapy 啥的呢~ |