百度搜索是不是在一定程序上默许爬虫? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zictos

百度搜索是不是在一定程序上默许爬虫?

  •  
  •   zictos May 9, 2021 5309 views
    This topic created in 1814 days ago, the information mentioned may be changed or developed.

    访问频率 2 秒左右一次的话访问上万次只遇到一次验证码。
    而谷歌随便访问几十次就有验证码,验证码还特别复杂。

    我不换 ip 、不登录(完全公开数据)、不破解验证码、不改 ua(使用 selenium+chrome),就一台电脑一直访问不知道会不会有事,还是有点担心。

    感觉百度可能在一定程序上默许,毕竟很多做 seo 的需要查排名,如果做太多限制或者验证码很复杂的话,那很多依靠百度获取排名等数据的一些大型网站可能都没法使用了。

    17 replies    2021-05-10 12:42:58 +08:00
    eycfsjd
        1
    eycfsjd  
       May 9, 2021
    搞那么复杂的反爬干啥呢,总有办法克服掉。。。所以更多的精力放到别的地方更有价值
    Jooooooooo
        2
    Jooooooooo  
       May 9, 2021
    如今的大型"网站"百度根本搜不到.
    zictos
        3
    zictos  
    OP
       May 9, 2021
    @anexplore #1 百度应该算是比较大方的,其他稍微大一点的网站基本都有比较复杂的反爬。淘宝最严重,不过淘宝本身都有开放 api,不知道还限制那么严重干嘛
    @Jooooooooo #2 某些不让百度抓取的大型网站我也不需要,但是大部分我需要的,百度都有
    renmu123
        4
    renmu123  
       May 9, 2021 via Android
    可能因为你的 ip 是共享的,所以经常被广告风控
    renmu123
        5
    renmu123  
       May 9, 2021 via Android
    广告风控=>谷歌风控
    zictos
        6
    zictos  
    OP
       May 9, 2021
    @renmu123 #4 手动一般不会出现谷歌验证码的。访问谷歌只能是云服务器的 ip,不是共享的,就我一个人用
    ooops
        7
    ooops  
       May 10, 2021 via iPhone
    一定程度上
    philipjf
        8
    philipjf  
       May 10, 2021
    写论文的时候通过 Google Scholar 查文献,因为本身不支持批量导出引用文件,只能手动一个一个下载,下载到二十几个的时候直接 IP 被 ban 了
    zzzmh
        9
    zzzmh  
       May 10, 2021
    反爬虫首先要增加前后端的算力消耗,其次既要反爬虫又要兼容老浏览器(ie6 ie7 ie8 等)也非常难实现,放弃浏览器兼容也不行,政企还有不少 xp 系统 ie8,最后就是搜索引擎类型的爬也爬不走他的库,爬到的数据价值也没那么大
    ThisDay
        10
    ThisDay  
       May 10, 2021
    我谷歌学术现在直接用不了,手动访问也不不行
    AoEiuV020
        11
    AoEiuV020  
       May 10, 2021   1
    不存在的,是否反爬虫看的是 robot.txt,
    百度是明确拒绝各种蜘蛛以及其他一切爬虫,
    没有验证码只能说明当前服务器压力不是太大,
    zictos
        12
    zictos  
    OP
       May 10, 2021
    @AoEiuV020 #11 robots.txt 主要针对搜索引擎的,搜索引擎获取数据后会展示,我获取数据后并不会展示给别人,只是用于自己分析。
    我的意思是百度不禁止的话那访问就风险不大,毕竟现在爬虫风险是比较大的。如果他不想让我访问就直接弹验证码或者禁掉我的 ip 就行,我也不更换 ip,就同一个 ip 。
    AoEiuV020
        13
    AoEiuV020  
       May 10, 2021
    @zictos robots.txt 是针对所有机器人的,一般理解成搜索引擎只是因为正常网站都是拒绝搜索引擎以外的所有机器人,同时搜索引擎以外的爬虫基本都无视 robots.txt,
    | The robots exclusion standard, also known as the robots exclusion protocol or simply robots.txt, is a standard used by websites to communicate with web crawlers and other web robots.

    总之你违反 robots.txt 就做好被告的心理准备,
    做好反反爬虫包括伪装 ua 的话百度还要分析一下你是不是机器人,是不是违反了 robots.txt ,
    连 ua 都不伪装等于直接告诉百度我就是违规了,你爱咋咋地,百度想做点什么就一抓一个准,
    AoEiuV020
        14
    AoEiuV020  
       May 10, 2021
    @zictos 你这个“如果他不想让我访问就直接弹验证码”就有点自欺欺人了,你擅自提了个要求然而百度根本没有听到你的要求,又怎么会拒绝你,
    就像那个,没来上课的同学举个手,好没人举手人都到期了,
    zictos
        15
    zictos  
    OP
       May 10, 2021
    @AoEiuV020 #13 我用得着伪造 ua 吗?直接使用 chrome 驱动,和正常用户的 chrome 的 ua 是一模一样的。
    浏览器安装在我的电脑上,我只是用程序控制我自己电脑上的浏览器,难道我连操作自己电脑的权利都没有了?

    一般现在大网站都有反爬措施的。百度也有,访问速度快了就弹验证码。另外像这种排名查询排名 http://tool.chinaz.com/keywords 都是自动访问百度的,如果百度动真格,这些网站都没法查了。很多大公司还有火车抢票,这可比我这种情况严重多了,我才两秒访问一次
    AoEiuV020
        16
    AoEiuV020  
       May 10, 2021
    @zictos 我的观点是,你违规了,百度保留起诉你的权利,仅此而已,考虑实际影响力百度当然不可能真对你做什么的,
    另外用程序控制浏览器而不是鼠标键盘这情况就是 robot 了,
    验证码啥的都是需要取舍的,严格了可能影响正常用户,不能说明容忍爬虫,
    zictos
        17
    zictos  
    OP
       May 10, 2021
    @AoEiuV020 #16 两秒一次,一天就四万多次,正常用户可能访问四万多次吗?如果百度意识到了,直接禁止就行了。又不会造成什么损失。我不换 ip 就是让他能够在不允许的情况下有办法禁止的,而不是他明明不允许我访问,我还疯狂换 ip 让他禁止不了。如果他明知道我访问那么多还不禁止甚至连验证码都不弹,就代表 2 秒每次的访问频率是他默许的。
    谁规定 http 请求必须手工操作的?那编程语言是干嘛的。robot 协议是国外出的。但 hiQ Labs Inc v. LinkedIn Corporation,最后居然 hiQ Labs Inc 胜利了。
    About     Help     Advertise     Blog     API     FAQ     Solana     5123 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 48ms UTC 09:45 PVG 17:45 LAX 02:45 JFK 05:45
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86