正抓取谷歌学术( not intensive),什么姿势可以躲过谷歌的封锁?在用 selenium, sys sleep 为 1s,但还是无情被封。难道需要随机的 sys sleep 时间和随机的 click 动作吗?大家有什么思路没? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
talentliuyang
V2EX    问与答

正抓取谷歌学术( not intensive),什么姿势可以躲过谷歌的封锁?在用 selenium, sys sleep 为 1s,但还是无情被封。难道需要随机的 sys sleep 时间和随机的 click 动作吗?大家有什么思路没?

 
  •   talentliuyang 2016-04-26 11:33:08 +08:00 5947 次点击
    这是一个创建于 3506 天前的主题,其中的信息可能已经有所发展或是发生改变。
    9 条回复    2016-04-27 10:03:05 +08:00
    gamexg
        1
    gamexg  
       2016-04-26 12:18:56 +08:00
    挂代理,经常更换自己的 ip 。
    或者 扫 google ip ,循环更换对方的 ip 。
    msg7086
        2
    msg7086  
       2016-04-26 12:42:26 +08:00   2
    (首先,你要比 Google 的工程师更聪明。
    htfy96
        3
    htfy96  
       2016-04-26 12:48:51 +08:00 via Android
    Google scholar 太难爬了 用代理池可能会好一点
    qqmishi
        4
    qqmishi  
       2016-04-26 13:09:46 +08:00
    其实我一直想试试用 GAE 爬谷歌看会不会封自己,,,
    fengxing
        5
    fengxing  
       2016-04-26 15:40:09 +08:00
    @qqmishi 我感觉 google 不会封自己的出口 IP 吧,但是应该会封号?
    mcone
        6
    mcone  
       2016-04-26 16:16:19 +08:00
    别想了,还 1s ……真人操作+账号登陆,有时候点的快一点都会被判为机器人,更何况你本来就是机器。。。。。。

    要么想办法比 google 那群人更聪明,要么换一个爬。。。。
    Landarky
        7
    Landarky  
       2016-04-26 23:02:49 +08:00
    Google 防机器爬虫也是有点牛逼的
    yech1990
        8
    yech1990  
       2016-04-27 00:59:33 +08:00 via Android   1
    Google scholars 本身限制太严格,就是普通搜索稍微频繁一点都会被验证。 试过用 python 自动查询几十篇,立马就被封 IP 了。 爬虫的话,我觉得是十分不现实的。


    倒是可以爬爬百度学术的,我觉得百度学术就是完全爬的 Google 的内容。毕竟流氓的技术水平高
    talentliuyang
        9
    talentliuyang  
    OP
       2016-04-27 10:03:05 +08:00
    @yech1990 好的,我试试百度学术。

    @Landarky @fengxing @gamexg @htfy96 @mcone @msg7086 @qqmishi 感谢大家的回复,我放弃爬谷歌学术了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1071 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 23:19 PVG 07:19 LAX 15:19 JFK 18:19
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86