郁闷,折腾了一周的爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
guoguobaba
V2EX    Python

郁闷,折腾了一周的爬虫

  •  
  •   guoguobaba 2024-08-26 17:50:07 +08:00 6246 次点击
    这是一个创建于 464 天前的主题,其中的信息可能已经有所发展或是发生改变。

    辛辛苦苦解码 js ,绕开反爬机制,结果他认证的时候加了个手机实名,我。

    28 条回复    2024-08-31 22:02:06 +08:00
    ccloving
        1
    ccloving  
       2024-08-26 17:51:17 +08:00
    用影刀
    littleG
        2
    littleG  
       2024-08-26 17:54:14 +08:00
    爬虫写的好,牢饭少不了。
    4BVL25L90W260T9U
        3
    4BVL25L90W260T9U  
       2024-08-26 17:57:01 +08:00
    国内的网站还是别搞了,现在已经完全没有任何法治可言了,惹急了人家给上边塞点钱,你这就是破坏计算机信息系统安全罪。
    guoguobaba
        4
    guoguobaba  
    OP
       2024-08-26 18:00:34 +08:00
    @ospider 我做的是 rpa ,客户自己存用户名密码啊
    4BVL25L90W260T9U
        5
    4BVL25L90W260T9U  
       2024-08-26 18:02:40 +08:00
    @guoguobaba #4 so ?我的意思就是现在你讲道理已经讲不明白了……
    privateproxies
        6
    privateproxies  
       2024-08-26 18:03:54 +08:00
    哈哈 1 千头 草泥马 汹涌而来
    julyclyde
        7
    julyclyde  
       2024-08-26 18:04:10 +08:00   2
    @ospider 你觉得“不想被爬”是违法的吗?
    yanw
        8
    yanw  
       2024-08-26 18:05:12 +08:00
    @guoguobaba 可以了解下相关判例
    macaodoll
        9
    macaodoll  
       2024-08-26 19:37:39 +08:00 via iPhone
    手机号注册吗?好多家接码平台,随便搞的
    yb2313
        10
    yb2313  
       2024-08-26 19:44:36 +08:00   1
    人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向
    happybabys
        11
    happybabys  
       2024-08-26 19:46:53 +08:00
    高端的食材只需要简单的烹饪
    somebody1
        12
    somebody1  
       2024-08-26 20:33:44 +08:00
    到解码 js 的时候就该用 playwright ,selenium 这种快速搞定,自己的时间比机器的资源值钱
    guoguobaba
        13
    guoguobaba  
    OP
       2024-08-26 20:47:02 +08:00 via iPhone
    @somebody1 selenium 也需要解 js 啊,瑞数了解一下
    somebody1
        14
    somebody1  
       2024-08-26 21:45:14 +08:00
    @guoguobaba #13
    不用你解,直接从页面抓取结果
    xinghusp
        15
    xinghusp  
       2024-08-26 22:33:59 +08:00   2
    @guoguobaba 兄弟 别搞了。我正在经历这破事,甚至于对方公司都没有报案也不愿意配合作证,这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用,也无反爬机制。
    fbichijing
        16
    fbichijing  
       2024-08-26 23:53:48 +08:00
    @yb2313 我倒觉得适度的爬虫是很有存在的必要性的,至少对个人来说是这样,可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它,客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。
    jianchang512
        17
    jianchang512  
       2024-08-27 00:28:08 +08:00
    国内即便你遵守 robots.txt, 也一样可能吃牢饭
    NoOneNoBody
        18
    NoOneNoBody  
       2024-08-27 00:38:50 +08:00
    最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
    不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

    爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
    zeusho871
        19
    zeusho871      2024-08-27 01:04:42 +08:00   2
    不要实名的话 这个框架好一点 drissionpage
    playwright selenium 有特征 不用去特征版本的就会被检测
    WeaPoon
        20
    WeaPoon  
       2024-08-27 01:53:25 +08:00
    @xinghusp #15 哎。
    llbqwhtxi
        21
    llbqwhtxi  
       2024-08-27 02:11:27 +08:00
    之前用 selenium 玩页游来的,最近一打开就被 403,要弃坑了(主要是不会"反爬")
    incubus
        22
    incubus  
       2024-08-27 08:16:55 +08:00
    @xinghusp 细说
    Daybyedream
        23
    Daybyedream  
       2024-08-27 08:50:38 +08:00
    控制频率= = 不公开 是最后的温柔
    linxb
        24
    linxb  
       2024-08-27 09:06:43 +08:00
    @ospider #3 啊,这言论是什么立场,合着放开让你随便爬才是法治是吧
    guoguobaba
        25
    guoguobaba  
    OP
       2024-08-27 10:02:04 +08:00
    @somebody1 我指的破解 js ,是屏蔽他对 selenium 之类自动化工具的检测。你去看看瑞数是怎么干的吧。
    naythefirst01
        26
    naythefirst01  
       2024-08-27 10:57:30 +08:00
    想起之前一些 app 的反爬 就是强制登录。。。 简单有效
    xinghusp
        27
    xinghusp  
       2024-08-27 19:06:12 +08:00
    @incubus 改天我写个帖子详细的介绍,这事情一两句说不清。。反正就是爬虫的入罪门槛非常低,只要:1.你没明确得到对方同意(签协议的那种同意,公共网页也不可以); 2.你尝试绕过了任一反爬措施(包括但不限于验证码、代理、JS 混淆等等); 3 、获利大于 5000 元。达成上述三个条件,就可以追究刑事责任了,哪怕对方不报警。
    duansindo
        28
    duansindo  
       2024-08-31 22:02:06 +08:00
    我这边需要抓取外国网站的数据,能做的联系我 https://t.me/githubaa
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     950 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 19:41 PVG 03:41 LAX 11:41 JFK 14:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86