Java jsoup 写爬虫如何执行 js 文件 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
dushandz

Java jsoup 写爬虫如何执行 js 文件

  •  
  •   dushandz 2017 年 11 月 8 日 9615 次点击
    这是一个创建于 3090 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,如何获取爬到的 html 中 script 标签下的 js 文件,能不能加载执行然后调用方法
    17 条回复    2017-11-08 20:11:57 +08:00
    p2pCoder
        1
    p2pCoder  
       2017 年 11 月 8 日   1
    script 标签下的肯定就是个 url,你直接 请求 url 就可以了
    jsuop 是 html 解析库,和 js 没多大关系,
    你要用 java 执行 js 函数可以直接用相关库,jdk 中就有 ScriptEngine 这个类,可以解析执行 js
    denghb
    &nbp;   2
    denghb  
       2017 年 11 月 8 日
    HtmlUnit
    qqpkat2
        3
    qqpkat2  
       2017 年 11 月 8 日
    jsoup 无法执行 js
    有些 js 用 ScriptEngine 也是无法执行的,比如 window 方法
    HtmlUnit 太慢,而且复杂 js 也执行不了
    那么用什么呢,我就不告诉你
    Xiaobaixiao
        4
    Xiaobaixiao  
       2017 年 11 月 8 日
    Selenium
    stanjia
        5
    stanjia  
       2017 年 11 月 8 日
    期待答案,我也想知道
    stanjia
        6
    stanjia  
       2017 年 11 月 8 日
    @Xiaobaixiao 刚看了下, 这个应该是最好的方案吧?
    p2pCoder
        7
    p2pCoder  
       2017 年 11 月 8 日
    window 是浏览器对象,肯定不能执行
    一般爬虫 中用到的的 js 函数都是加密函数和解析函数,如果中间引入了外部库,也要把外部库加进去
    python 的话 我用 execjs
    DRcoding
        8
    DRcoding  
       2017 年 11 月 8 日   2
    java 有 js 的引擎的,Nashron。
    MrXiong
        9
    MrXiong  
       2017 年 11 月 8 日
    楼上正解
    paragon
        10
    paragon  
       2017 年 11 月 8 日
    你可以弄个 V8 把 js 传过去执行完把结果再传回来啊
    mooncakejs
        11
    mooncakejs  
       2017 年 11 月 8 日
    直接用 js 写爬虫的路过
    ooTwToo
        12
    ooTwToo  
       2017 年 11 月 8 日
    @qqpkat2 那你很棒啊
    wwwvvvvvvvvvv
        13
    wwwvvvvvvvvvv  
       2017 年 11 月 8 日
    Selenium
    sodarfish
        14
    sodarfish  
       2017 年 11 月 8 日
    当然是用 phantomjs
    LukeChien
        15
    LukeChien  
       2017 年 11 月 8 日   1
    Java 8 的 nashorn 引擎很好用,但是执行的时候一些浏览器对象需要你手工创建,比如 window
    kaneg
        16
    kaneg  
       2017 年 11 月 8 日 via iPhone
    不知道 headless chrome 能不能满足你的需求
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1603 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 85ms UTC 16:30 PVG 00:30 LAX 09:30 JFK 12:30
    Do have faith in what you're doing.
    ubaomsnsnddmindexpchomeyahoorakutenmypapermeadowduckbidyahooyoubaozxmzxmasdabnvcgcvbfgdfscvmmhjkxxddcyybgbzznbnccubaouaituacvGXCVETGDGYHFGBCVBFJFHCBRECBCGDGET54WRWRRWERWREWWRWERRWERSDGEWSFDSFSFfbbsubaofhddfgewrdgdfewwrewwretruyutututdfgfgdgdfgtetgdfgtdfgdert4gdfggwr235wer3wevsdfsdfgdfertxcvsdfrwerhfddfgcvbrwfafbdfhjghbmnlghrtygfdscxvxcvxcsvdasfdffgdcvsdftertsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfshasha9178shasha9178shasha9178shasha9178shasha9178liflif2liflif2liflif2liflif2liflif2liblib3liblib3liblib3liblib3liblib3zhazha444zhazha444zhazha444zhazha444zhazha444dende5dendedendendenden2denden21fenfen9fenf619fen619fenfe9fe619sdfsdfsdfsdfsdfzhazh90zhazh0zhaa50zha90zh590zhozhozzhozhzhozhozhozho2lislislls95lili95lils5liss9sdf0ty987sdft876sdft9876sdf09876sd0t9876sdf0ty98sdf0976sdf0ty986sdf0ty96sdf0t76sdf0876df0ty98sf0t876sd0ty76sdy76sdf76sdf0t76sdf0ty9sdf0ty98sdf0ty987sdf0ty98sdf6676sdf876sd876sd876sdf6sdf6sdf9876sdf0tsdf06sdf0ty9776sdf0ty9776sdf0ty76sdf8876sdf0tsd6sdf06s688876sd688sdf86
    ztmark
        17
    ztmark  
       2017 年 11 月 8 日