在公司一直写 webapi ,要么就是业务相关的 CURD 操作。想抽空做个小工具,拓展一下技能面,也可以实用。 市面上一些爬虫软件用过一些,感觉太分散,没有集中管理功能。 语言 JAVA , NODEJS 都写过服务端,前端套 angular 和 bootstrap 的水平。 看到爬虫用 PYTHON 实现的很多,是不是用来写这个最合适,这几天刚看了语法。 自己列了个需求如图。如果用 python 的话,有哪些成熟的第三方库可以直接用的,谢谢。
![]() | 1 xuzywozz 2017-01-15 21:05:20 +08:00 requests scrapy :) |
![]() | 2 upczww 2017-01-15 21:12:24 +08:00 via iPhone 补充下 pyspider 也不错。 |
![]() | 3 bdbai 2017-01-15 21:32:13 +08:00 via Android 如果还要站点管理什么的,感觉要搞复杂了。上 Django ,再来个消息队列吧。 |
![]() |
![]() | 5 gouchaoer 2017-01-15 21:36:27 +08:00 via Android django 折腾过,我表示做简单的 web 后台 php 随便找一个框架都很方便( laravel 除外) |
![]() | 7 ne6rd OP @gouchaoer pixiv 我以前用过 PixivUtil2.exe ,感觉功能很强大。就是在存储路径上有一些不满意。 主要想实现集中管理,包括更新日期之类的。 站点管理你们第一反应都是 web 后台?我想做客户端的呀 orz |
![]() | 8 bdbai 2017-01-15 21:58:38 +08:00 via Android 我觉得有了 web API ,跨平台就好实现了,没有 B/S 和 C/S 之分。想做网页端就来套前端框架,想做客户端就写客户端代码, Java 、 C# 都行,毕竟 GUI 不是 Python 强项。而用 Django 做一套 web 服务很方便。 |
![]() | 9 araraloren 2017-01-16 09:26:54 +08:00 ~~你这需求列的 就不像小工具。。。。 简单来讲 还是先搞个 demo 自己试试吧,然后根据自己的需求设计。。 比如我这个 https://github.com/araraloren/Getopt-Kinoko/blob/master/sample/fetch-picture.p6 也算是一个爬虫了,足够简单实用(图片下载工具只是简单的借用 wget ,最近我才加入了 LWP 模块的支持,没来得及更新),我拿来下百毒贴吧的图片用 考虑到其他的网站,可能最现实的就是还需要登录,甚至会有验证码,或者是 IP 的访问限制,还是挺麻烦的,前期的时候尽量要考虑全面。。 |
![]() | 10 dantegg 2017-01-16 11:29:34 +08:00 scrapy |
11 beidouxun 2017-01-16 12:34:24 +08:00 via Android 我用的 C#爬虫框架,自己写的 web 管理页面。不是 GUI 和没有日志生成,其他都实现了 |
![]() | 12 doumeki 2017-01-16 16:51:17 +08:00 初学者有个疑问,我看 python 爬虫都推荐那个 scrapy. 求问 selenium 这个自动化工具也很方便啊,为什么没人推荐使用? |
![]() | 13 argsno 2017-01-16 22:25:39 +08:00 via iPad @doumeki selenium 主要用在需要模拟浏览器,需要 Javascript 的执行环境下 scrapy 是个并行的爬虫框架,简单而且速度快 |
![]() | 14 figofuture 2017-01-17 10:08:09 +08:00 |