爬虫使用高匿代理会被服务器检测到本机吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
heyhumor
V2EX    Python

爬虫使用高匿代理会被服务器检测到本机吗?

  •  
  •   heyhumor 2019-11-24 20:14:34 +08:00 6460 次点击
    这是一个创建于 2193 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。

    UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解

    22 条回复    2020-05-15 08:10:38 +08:00
    66CCFF
        1
    66CCFF  
       2019-11-24 20:39:52 +08:00
    前端搞个 js 很容易检测你这种呀。
    yankebupt
        2
    yankebupt  
       2019-11-24 22:24:39 +08:00
    你先找几台高匿 VNC 上去手动爬下试试……
    有的行为检测连手动爬都过不了,更别提 python 了......
    话说某剁手站我正常使用时都有 5%以上的验证码弹出率,不知是不是我长得很像爬虫……
    nnnToTnnn
        3
    nnnToTnnn  
       2019-11-25 09:18:51 +08:00
    很简单,行为分析啊。 鼠标移动的轨迹,还有敏感的 IP 地址等等一些参数。

    详细项目请参考 Google 的 “我不是机器人”
    Lunatic1
        4
    Lunatic1  
       2019-11-25 10:06:22 +08:00
    如果被封说明 IP 的高匿还是失败的,假设开代理被检测也只是会封当前代理吧?可以先测试一下
    hardcattle
        5
    hardcattle  
       2019-11-25 10:09:09 +08:00
    亲,pyppeteer 了解一下,还有什么不能爬的网点。
    lcy630409
        6
    lcy630409  
       2019-11-25 13:12:15 +08:00
    不要用代理 本机直接爬,速度慢点
    代理都是服务器的 ip 都是机房的,不说别的 判断你访问的 ip 是机房 ip 就要弹验证码了
    letitbesqzr
        7
    letitbesqzr  
       2019-11-25 17:17:45 +08:00
    先不说根据你的行为来判定的是否爬虫,就拿你代理 ip 来说,现在做风控的,都会把 ip 因素考虑进去,比如 ip 是否来自于机房 是否来自于 adsl 等等一系列,他们的大数据远比我们想到的丰富。
    heyhumor
        8
    heyhumor  
    OP
       2019-11-26 08:23:34 +08:00
    @66CCFF 我的请求可以返回正常数据的,而且每次请求都更换 IP,存在 js 检测吗
    heyhumor
        9
    heyhumor  
    OP
       2019-11-26 08:26:07 +08:00
    @Lunatic1 代理 IP 是动态更换的
    heyhumor
        10
    heyhumor  
    OP
       2019-11-26 08:26:39 +08:00
    @hardcattle pyppeteer 好像已经不维护了,问题很多吧
    heyhumor
        11
    heyhumor  
    OP
       2019-11-26 08:27:10 +08:00
    @nnnToTnnn 还有这种骚操作吗
    heyhumor
        12
    heyhumor  
    OP
       2019-11-26 08:28:37 +08:00
    @lcy630409 数据量挺大的,说实话
    heyhumor
        13
    heyhumor  
    OP
       2019-11-26 08:29:26 +08:00
    @lcy630409 我的倒不是验证码,正常返回几次之后直接 403 拒绝访问
    superrichman
        14
    superrichman  
       2019-11-26 08:59:57 +08:00 via iPhone
    估计是你的 header 没处理好吧
    wildplant
        15
    wildplant  
       2019-11-26 09:03:06 +08:00
    @heyhumor 那试一下 puppeteer 吧。反正写爬虫不也得会点 js 嘛。
    heyhumor
        16
    heyhumor  
    OP
       2019-11-26 09:53:10 +08:00
    @superrichman header 没处理好的话应该都不会返回数据吧,可是我返回了几次正确数据后才 403 的
    heyhumor
        17
    heyhumor  
    OP
       2019-11-26 09:53:27 +08:00
    @wildplant 好的,我试试
    676529483
        18
    676529483  
       2019-11-26 10:11:04 +08:00
    爬的是要登陆网站吗?如果是要登陆的,你 cookie 用的同一账号的,怎么代理也没用啊
    scukmh
        19
    scukmh  
       2019-11-26 10:24:28 +08:00 via iPhone
    代理怎么加的代码有吗? requests 的代理有点小坑的。
    QUIOA
        20
    QUIOA  
       2019-11-30 12:36:20 +08:00 via Android
    如果是国外网站你可以去买那些住宅代理 IP
    laball
        21
    laball  
       2020-05-15 00:45:18 +08:00
    @hardcattle 想请教,如何解决 IP 被封的问题。
    heyhumor
        22
    heyhumor  
    OP
       2020-05-15 08:10:38 +08:00
    @laball IP 被封就只能换 IP 了,买代理 IP,套上就行了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3114 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 11:32 PVG 19:32 LAX 03:32 JFK 06:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86