使用 selenium,将人工浏览企查查进行半自动化,这个行为合法吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
piaochen0
V2EX    问与答

使用 selenium,将人工浏览企查查进行半自动化,这个行为合法吗?

  •  
  •   piaochen0 2024-01-16 16:49:16 +08:00 2591 次点击
    这是一个创建于 682 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司有一个业务,需要根据企业名,去企查查这样的网站上查询统一社会信用代码还有国标行业这样的信息制作合同文书。
    量也不多,每个月大概一次性一百条左右。
    之前他们的方式都是登陆几个账号,手动去查,然后记录在表格中。

    现在业务人员希望能出个半自动化的工具,尽量减少人力时间。
    目前看了企查查的接口,要想查国标行业,还得是个高级接口,还要企业认证才行,价格还是面议。感觉挺麻烦的。 而且公司层面,走这样购买接口或者资质认证,流程也比较麻烦。

    目前考虑通过 selenium 的方式来采集,企查查网站查询到一定数量后,再让使用者手动切换账号。 在网站限制的范围内进行查询,登陆过程都是手动,只不过把人工搜索和复制信息的过程,进行代码化。

    不知道这样是否存在法律风险。或者有没有其他法律风险更小的方案?

    16 条回复    2024-01-17 09:40:55 +08:00
    yyzh
        1
    yyzh  
       2024-01-16 16:58:14 +08:00
    在合规上来说爬虫就是爬虫,没有什么多与少的区别.
    但是私底下嘛.企查查自己都是爬的别家的数据 https://www.qcc.com/web/cms/cm_14
    qwertty01
        2
    qwertty01  
       2024-01-16 17:23:56 +08:00
    selenium 大概率被封禁

    一家做爬虫起家的,你还想去爬他家数据,关公门钱耍大刀

    我几年之前,做过这个爬虫,当时是滑动验证码,大概几百条就被封

    现在大概率 selenium 会被监测出来

    我推荐你搞个自动化鼠标的工具,然后固定区域截屏,进行识别
    huijiewei
        3
    huijiewei  
       2024-01-16 17:28:40 +08:00
    直接做个 chrome 插件自己部署咋样
    locoz
        4
    locoz  
       2024-01-16 17:55:06 +08:00
    合理需求、内部使用、量不大,没有问题,又不是大量爬了拿去卖钱或者做竞品之类的,那就叫不正当竞争了。
    kumago
        5
    kumago  
       2024-01-16 17:57:01 +08:00   1
    RPA 慢慢跑就可以了
    defunct9
        6
    defunct9  
       2024-01-16 17:59:27 +08:00   1
    puppeteer
    INW017bzMfgkkYGn
        7
    INW017bzMfgkkYGn  
       2024-01-16 18:05:03 +08:00
    这点量不用问,问就是人工查的
    yxb9511
        8
    yxb9511  
       2024-01-16 18:08:07 +08:00
    上淘宝搜企 chacha
    mcV473b9u4GfJG81
        9
    mcV473b9u4GfJG81  
       2024-01-16 18:26:44 +08:00
    凡事会检查你是不是机器人的地方 用屏幕回放功能 其他用自动化或是 post 请求。
    ruoxie
        10
    ruoxie  
       2024-01-16 18:35:16 +08:00 via Android
    RPA
    QHKZ
        11
    QHKZ  
       2024-01-16 19:23:28 +08:00
    puppeteer
    mxT52CRuqR6o5
        12
    mxT52CRuqR6o5  
       2024-01-16 19:29:36 +08:00
    给公司省钱省事儿,给自己增加风险,别整这种操作
    wolfan
        13
    wolfan  
       2024-01-16 19:30:34 +08:00
    为什么不直接爬官方呐,企查查也不过是二手信息,从工商司法各部门爬回内容后综合加工。
    summerwar
        14
    summerwar  
       2024-01-16 19:30:51 +08:00   2
    那你还不如写个油猴脚本,直接打开页面的时候自动提取页面信息,提交到一个后台,这样业务员也轻松,任何反爬的措施都可以规避掉
    mysunshinedreams
        15
    mysunshinedreams  
       2024-01-17 01:20:46 +08:00
    建议使用 Puppeteer ,不过也挺麻烦,搞别的网站经常换验证码的样式。
    leyoumake1997
        16
    leyoumake1997  
       2024-01-17 09:40:55 +08:00
    云 API 了解下,按次付费。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1039 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 23:34 PVG 07:34 LAX 15:34 JFK 18:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86