在写一个爬虫代理服务,有人需要吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sivacohan
V2EX    问与答

在写一个爬虫代理服务,有人需要吗?

  •  
  •   sivacohan
    PRO
    2016-09-02 13:10:17 +08:00 4793 次点击
    这是一个创建于 3354 天前的主题,其中的信息可能已经有所发展或是发生改变。
    因为之前写了一些小爬虫,管理代理池一直是一个很麻烦的事情。所以就写了一个小东西。来帮助自己管理代理池,自动更换出口代理 IP 。

    目前已经实现的功能有:
    1 、标准的 HTTP 代理 Basic Auth
    2 、利用 HTTP header 来区分进程,即一台服务器上有多个 fetcher 进程将分配多个出口 IP
    3 、对于同一个进程,按照不同的请求域名进行分流,即一个 fetcher 也有可能会分得多个 IP
    4 、状态监控,对于返回 403 , 500 的请求直接更换出口 IP
    5 、简单的,基于正则的结果验证,用户可以检测“请输入验证码”,“稍后再试等情况”
    6 、目前支持 GET, POST, PUT, DELETE 方法

    正在准备支持的功能:
    1 、增加 Web 管理界面
    2 、增加 HTTPS 支持,目前不支持 connect 方法
    3 、为部分网站增加缓存

    简单来说,这就是一个代理服务,与常规代理不同的是,我可以为一台机器分配更多的出口,极限情况为:一台机器的 fetcher 进程数 n ,抓取的网站数量 m ,出口数量 p = n*m

    有人对这个东西有兴趣吗?如果做成一个平台,你希望得到什么样的服务,以及你愿意为这个服务支付多少费用呢?
    16 条回复    2017-02-02 00:27:47 +08:00
    pango
        1
    pango  
       2016-09-02 13:16:17 +08:00
    其他都是空的。
    关键是:你们有多少个 ip ?都分布在哪些国家?都是干净的吗?
    laoyuan
        2
    laoyuan  
       2016-09-02 13:27:56 +08:00
    接口可以简单点,两个参数验证身份,一个目标 URL ,一个方法,一个 POST 的 raw data 。
    费用可以设几个档,我大概一个月几千万请求,不到一个 T 流量,可能用到几十上百个 IP ,一月 100 块钱肯定出的起。
    gimp
        3
    gimp  
       2016-09-02 13:35:12 +08:00
    @laoyuan 这个需求, 100 软妹币太少太少了。
    laurent
        4
    laurent  
       2016-09-02 14:14:33 +08:00
    我最近也写了个类似的东西,实际使用下来,发现最关键的还是代理 IP 的质量。代理 IP 质量不好的话,爬虫大多数时间都卡在等待可用 IP 上了。所以觉得这个服务的最大价值在于代理 IP ,那么定价自然是参考其他的代理 IP 提供商咯。
    sivacohan
        5
    sivacohan  
    OP
    PRO
       2016-09-02 14:50:54 +08:00
    @pango 目前正在计划,主要就面向国内用户了。当前自己用了 20 多个 IP ,主要是阿里云和百度云的。如果有人需要的话,就再买些 IP 咯。网上的免费 IP 只能当玩具用。


    @laoyuan 不知道你爬去的是什么网站。我流量和你差不多,总共才用了 10 个 IP 。

    @gimp 终于有人给了一个中肯的评价了。他那个需求,自建的成本怎么也得 3k 到 4k 。

    @laurent 我现在是想找些人自建 IP 池,免费 IP + 各种云的 IP + 少量 ADSL 小区宽带。而实际上,我这个不太好定价。代理服务商是多少钱多少 IP ,封了就没了。我是根据爬去情况动态更换的。有人捣乱我这边会跪的很惨的……
    herozzm
        6
    herozzm  
       2016-09-02 18:29:04 +08:00 via Android
    关心 IP 池怎么来的
    imn1
        7
    imn1  
       2016-09-02 18:36:13 +08:00
    同 1 楼,我想爬北都集团, 2333
    fchypzero
        8
    fchypzero  
       2016-09-02 20:54:53 +08:00 via Android
    套感趣,竟手上有很多 ADSL
    gimp
        9
    gimp  
       2016-09-03 00:07:18 +08:00
    https://luminati.io/
    http://crawlera.com/
    https://www.proxyrain.com/

    挺正规的爬虫代理服务商,价格供参考。
    scnace
        10
    scnace  
       2016-09-03 01:34:53 +08:00 via Android
    好巧 我最近也在写 我连 ip 池都是免费的代理那里抓来的 233 大概有 7w 个 还没测 不知道能用的有多少。。。
    daiv
        11
    daiv  
       2017-01-11 09:11:00 +08:00
    楼主做出来了吗?
    我想要稳定一些的代理 IP 。

    例如一个 IP 用一个星期
    sivacohan
        12
    sivacohan  
    OP
    PRO
       2017-01-11 15:03:41 +08:00 via Android
    @daiv

    做完自己用了,只做 IP 池管理。
    你的需求可以考虑用 bae 的 Python worker 版,单个 IP 一个月大概才 4 块钱。
    daiv
        13
    daiv  
       2017-01-11 15:10:11 +08:00
    @sivacohan 这么好? 我去试试。 除了 IP 费用,其他无费用了?
    sivacohan
        14
    sivacohan  
    OP
    PRO
       2017-01-11 16:12:14 +08:00 via Android   1
    @daiv bae ,提供一个 Python worker 环境。选最低内存最便宜那个。

    在上面部署一个 tornado 的代理。
    然后你需要申请一个端口转发,每月好像一块钱吧。

    很简单,看一下就明白了。这是市面上能直接买到的最便宜的 IP 了。
    hadoop
        15
    hadoop  
       2017-02-01 23:59:00 +08:00
    @sivacohan 赞啊,这思路不错。如果 bae 能自动开,就更好了。带宽被限制了吧?
    sivacohan
        16
    sivacohan  
    OP
    PRO
       2017-02-02 00:27:47 +08:00 via Android
    @hadoop

    没法自动开,接口都跪了。
    单个用户限制 100 个 bae 实例。
    而且量大的话,可能会有几个 bae 分到一个 ip 的情况。
    玩玩可以,实际的话,成本肯定更高。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     834 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 21:26 PVG 05:26 LAX 13:26 JFK 16:26
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86