继续付费找爬虫牛人啊 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
zinfinb
V2EX    Go 编程语言

继续付费找爬虫牛人啊

  •  
  •   zinfinb 2019-05-28 09:38:06 +08:00 5130 次点击
    这是一个创建于 2334 天前的主题,其中的信息可能已经有所发展或是发生改变。

    把需求里 最核心的两个技术性的难点问题再说明一下

    对性能(实时性)有非常高的要求, 抓取到的新闻 最多 1s 内的延迟

    再就是部分抓取网站有 websocket 的接口推送新闻的,这个需要搞定

    能够解决上面两个问题的联系我,最好是有实际相关项目经验的

    开发费用 1w,维护费用 5k/年,服务器硬件还有代理部分预算支出在 2w/年 ,

    爬取网站 10 个左右,爬取时间一天 6 小时

    联系方式 球球:196063

    airyland
        1
    airyland  
       2019-05-28 09:54:17 +08:00
    1s 延迟,先说能不能达到这个延迟,你考虑过人家网站的感受么。
    tikazyq
        2
    tikazyq  
       2019-05-28 09:56:53 +08:00
    这种实时性要求高的爬虫需要对网页进行秒级监控,这个有些难度,可以用 polling 来搞。websocket 爬虫我认识一个大牛,可以 wx 我 tikazyq1

    顺便打个广告,Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业

    // github.com /tikazyq/crawlab
    zinfinb
        3
    zinfinb  
    OP
       2019-05-28 09:57:30 +08:00
    @airyland 都是比较大型的网站 1s 访问个 2 到 3 次就打挂了 ?
    explorerEX
        4
    explorerEX  
       2019-05-28 10:01:05 +08:00
    应该是金融类的产品吧,响应可以在这范围内,稳定性不一定能达到
    Moker
        5
    Moker  
       2019-05-28 10:01:24 +08:00
    什么类型的网站?
    lekai63
        6
    lekai63  
       2019-05-28 10:02:27 +08:00 via iPhone
    1 天 6 小时
    估计是爬 gov 网站 基于舆情作交易吗
    Taeye9n
        7
    Taeye9n  
       2019-05-28 10:03:41 +08:00   1
    2w/a 买代理都不够的吧
    airyland
        8
    airyland  
       2019-05-28 10:07:41 +08:00   1
    @zinfinb 不会挂不意味着这样频率的请求是合理的,大部分在爬的人估计都是这么想的。你考虑的是反正人家不会挂,而站方必须增加更多额外人力资源成本来应对爬虫。
    zinfinb
        9
    zinfinb  
    OP
       2019-05-28 10:14:28 +08:00
    @airyland 多谢提醒 嗯
    dryadent
        10
    dryadent  
       2019-05-28 10:16:08 +08:00   1
    我觉得这个的主要难点在于 1s 之内响应,对应的就是反爬策略的更新和代理的稳定性,我觉得 2w 付代理确实有难度
    davie
        11
    davie  
       2019-05-28 10:16:19 +08:00   1
    这个要求有点疯狂啊
    fate
        12
    fate  
       2019-05-28 10:16:27 +08:00
    自己做新闻源?
    native
        13
    native  
       2019-05-28 10:17:11 +08:00
    爬取时间一天 6 小时 ,如何做到实时?只有 6 个小时实时。
    zinfinb
        14
    zinfinb  
    OP
       2019-05-28 10:18:05 +08:00
    @dryadent 这部分 可以 再增加支出
    dryadent
        15
    dryadent  
       2019-05-28 10:20:55 +08:00
    @zinfinb 对,我觉得代理这部分可以看着来,一般的网站即使把 ip 封了也不会一直封禁,有一个静默期,用代理池一直更新就好了,主要是测试到准确的静默期边界存在困难
    lesterchen
        16
    lesterchen  
       2019-05-28 10:22:50 +08:00
    不会被计算机犯罪么~
    jpacg
        17
    jpacg  
       2019-05-28 10:29:51 +08:00   1
    这个确实很危险,算计算机犯罪了,赚白菜的钱,操白粉的心。
    Constellation39
        18
    Constellation39  
       2019-05-28 10:32:31 +08:00
    监狱里面找 /狗头 /
    murmur
        19
    murmur  
       2019-05-28 10:35:56 +08:00
    1s 延迟你要把别人网站爬炸
    dongya
        20
    dongya  
       2019-05-28 10:36:36 +08:00   1
    洗洗睡吧
    zuoakang
        21
    zuoakang  
       2019-05-28 10:36:46 +08:00 via Android
    白菜价
    liwl
        22
    liwl  
       2019-05-28 10:41:48 +08:00
    话说,多加几台机器,轮流跑 可以么 比如 5 台 5s 一次 每台之间间隔 1s 加钱可达?
    locoz
        23
    locoz  
       2019-05-28 10:51:47 +08:00   1
    这需求没法做的,“最多 1s 内的延迟”这一点,技术层面都不一定所有网站可行,道德层面问题就更大了。。
    1s 内的延迟意味着你需要至少 0.5 秒刷新一次,对于一些比较菜的网站来说就是 DDOS 了,虽然可能不会当场爆炸但也会压力山大;如果人家挂了付费 CDN 的话即使全部打在缓存上、对服务器本身没有压力,也还是会有流量费的问题。
    onepunch
        24
    onepunch  
       2019-05-28 11:44:40 +08:00
    这个需求很简单,怎么实现我不管 ,dog
    zzcworld
        25
    zzcworld  
       2019-05-28 11:50:34 +08:00   1
    你可以跟这些网站合作拿信息,不过费用就不只两万了。
    我以前写过一个 proxy,可以把这个软件接受的所有信息转发,延迟在 0.1s 以内。
    频繁刷新不可取,websocksets 还可以
    chol
        26
    chol  
       2019-05-28 12:34:34 +08:00 via iPhone
    可以做啊,预算加个 0
    ensonmj
        27
    ensonmj  
       2019-05-28 13:13:38 +08:00   1
    1s 延迟,这个需求估计是拍脑袋拍出来的
    rocketman13
        28
    rocketman13  
       2019-05-28 13:15:10 +08:00
    费用感人。。
    zinfinb
        29
    zinfinb  
    OP
       2019-05-28 13:54:56 +08:00
    @zzcworld 多谢你的建议, 有一些细节我想请教一下,是否方便发我你的联系方式? 我现在考虑把重要的按你说的 proxy 的方式来做, 有 websocket 替代的尽量用这个。其他不重要的 刷取间隔时间调长一些
    lasuar
        30
    lasuar  
       2019-05-28 14:16:58 +08:00
    既然是找别人做,就不要想着投机套方案,之前 V 站也有这种人,最后在这里不敢发言了。
    luozic
        31
    luozic  
       2019-05-28 14:20:03 +08:00 via iPhone
    ,ip 代理费
    demoxu
        33
    demoxu  
       2019-05-28 17:13:51 +08:00
    首先不说开发费用,5k/年的维护费用平均 400/月?
    lifeintools
        34
    lifeintools  
       2019-05-28 17:18:06 +08:00
    这个价格 招实习生 差不多
    Navee
        35
    Navee  
       2019-05-28 17:43:45 +08:00
    1s 延迟,单页面日最少请求=3600*24=86400,平均一个代理请求 1000 次,得至少 86 个代理轮换
    mzdblsw8
        36
    mzdblsw8  
      nbsp;2019-05-29 02:43:06 +08:00 via iPhone
    有没有想过。一年维护费才 5000。

    网站改一下策略。又要改代码。一个月才 400。那个大牛这么便宜?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2578 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 14:40 PVG 22:40 LAX 07:40 JFK 10:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86