大神们请研究下这个页面里实际的 PDF 如何下载下来? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
ssdde

大神们请研究下这个页面里实际的 PDF 如何下载下来?

  •  
  •   ssdde Feb 2, 2020 9765 views
    This topic created in 2280 days ago, the information mentioned may be changed or developed.
    75 replies    2020-02-09 00:07:21 +08:00
    disk
        1
    disk  
       Feb 2, 2020 via Android
    粗看了下,没有实际的 pdf,返回的图片,要么爬下来合成。
    ssdde
        2
    ssdde  
    OP
       Feb 2, 2020
    @disk 嗯如果只是图片的话,笨一点的方法可以加载完一张一张保存。求大神出个最简单最高质量的下载方法
    ysc3839
        3
    ysc3839  
       Feb 2, 2020 via Android   4
    shuangyeying
        4
    shuangyeying  
       Feb 2, 2020
    感谢感谢,很多新书呀。
    magana
        5
    magana  
       Feb 2, 2020
    这个页面的书可以用浏览器页面打印的方式,打印为 pdf 文件
    fromdark
        6
    fromdark  
       Feb 2, 2020
    哈哈哈,最近疫情免费开放,昨天也想下载,没想到没有下载的功能
    yulihao
        7
    yulihao  
       Feb 2, 2020
    全是图片啊
    linKnowEasy
        8
    linKnowEasy  
       Feb 2, 2020
    有没有书本推荐. 不限题材.
    xyjincan
        9
    xyjincan  
       Feb 2, 2020
    昨天下载到一半,好像被封了,啥都看不见了
    Mavious
        10
    Mavious  
       Feb 2, 2020   5
    fireflies
        11
    fireflies  
       Feb 2, 2020
    @ysc3839 RecursionError: maximum recursion depth exceeded 报错
    InkAndBanner
      nbsp; 12
    InkAndBanner  
       Feb 2, 2020
    @Mavious 慧眼识珠
    LZSZ
        13
    LZSZ  
       Feb 2, 2020
    @ssdde 用 py 爬 网上有很多爬图片的教程
    CNHSK
        14
    CNHSK  
       Feb 2, 2020
    @ysc3839 Traceback (most recent call last):
    File "C:\Users\Administrator\Desktop\wqxt_pdf-master\imgautocompress.py", line 115, in <module>
    input_file = sys.argv[1]
    IndexError: list index out of range
    >>> 怎么解决,大佬
    ysc3839
        15
    ysc3839  
       Feb 2, 2020 via Android
    @fireflies @CNHSK 我没用过,这也不是我开发的,只是恰好在网上看到了。
    jakezh
        16
    jakezh  
       Feb 2, 2020
    看了一眼

    @CNHSK #14 python crawl_wqxt.py book_id


    @fireflies #11 parse catalog 有死循环,注释掉就 ok 了
    yamedie
        17
    yamedie  
       Feb 2, 2020   1
    用 chrome 的 overrides, 去搞一个名为 read.v5.3.1.722eb.js 的文件, 把 getJwt 暴露到 window 对象上, 一切就迎刃而解了
    ssdde
        18
    ssdde  
    OP
       Feb 2, 2020
    @yamedie 大神,你说的这个好像很不错的样子,但是不会搞呀,急
    ssdde
        19
    ssdde  
    OP
       Feb 2, 2020
    @magana 浏览器打印的话,需要所有页面图片都清晰加载一次,而且存储来的 PDF 左下角有页面地址,还有书签符号,和在线客服,怎么去除啊
    ssdde
        20
    ssdde  
    OP
       Feb 2, 2020
    有没有大佬能针对这个站,写一个工具,只要运行,自己粘贴网址就行,啥都不用管的,小白哭求
    run2
        21
    run2  
       Feb 2, 2020
    放心,下载下来你们以后也不会看的
    虽然都是旧版书,但人家是给你看 又不是给你们扒的
    Buges
        22
    Buges  
       Feb 2, 2020 via Android   4
    你先在线读完这本书,然后你就懂如何下载了。
    aguesuka
        23
    aguesuka  
       Feb 2, 2020
    content-type: image/jpeg
    ytf4425
        24
    ytf4425  
       Feb 2, 2020
    @Buges 太同意了
    aviator
        25
    aviator  
       Feb 2, 2020
    哇,感谢楼主,好多书可以看。
    crab
        26
    crab  
       Feb 2, 2020
    @fireflies pip 升级最新版再重新安装下依赖
    echowxsy
        27
    echowxsy  
       Feb 2, 2020
    看到请求里面有类似 lib-nuanxin.wqxuetang.com/page/img/3208401/{PAGE}?k={JSONWEBTOKEN}的链接,可以考虑构造链接然后拼装成 pdf
    qq544230987
        28
    qq544230987  
       Feb 2, 2020
    是假的 PDF,其实是图片~ 你批量下载下来,转成 PDF
    ytf4425
        29
    ytf4425  
       Feb 2, 2020   2
    aHR0cHM6Ly93d3cubmVrby5vb28vd3F4dWV0YW5nLWRvd25sb2FkLw==

    警告:请尊重版权,仅供学习之用,请勿全站拖,请仅下载你需要的部分,请勿缺德爬全站。一切后果与本人及作者无关。
    ssdde
        30
    ssdde  
    OP
       Feb 2, 2020
    @ytf4425 大佬,请问你给的这个是啥,如何使用?
    ssdde
        31
    ssdde  
    OP
       Feb 2, 2020
    @ytf4425 哦,懂了,谢谢神仙指路
    fireflies
        32
    fireflies  
       Feb 2, 2020
    @crab 谢谢
    fireflies
        33
    fireflies  
       Feb 2, 2020
    @jakezh 谢谢
    fireflies
        34
    fireflies  
       Feb 2, 2020
    @ssdde 什么意思,请教
    ssdde
        35
    ssdde  
    OP
       Feb 2, 2020
    @ytf4425 大神,文章看完了,可是还是不会下载,怎么破,大神求带
    ssdde
        36
    ssdde  
    OP
       Feb 2, 2020
    @ytf4425 文章最后有个代码实现,但是看不了,点开需要登录
    mcone
        37
    mcone  
       Feb 2, 2020
    @Mavious 这只猫真赞+1
    ytf4425
        38
    ytf4425  
       Feb 2, 2020
    @ssdde 因为某些原因不公开代码惹(怕被追责),实现方法文中都已经说了,即使是手动写个批处理应该也不是很难
    fireflies
        39
    fireflies  
       Feb 2, 2020
    @ytf4425 文章在哪里啊
    ssdde
        40
    ssdde  
    OP
       Feb 2, 2020
    @ytf4425 纯小白,真不会啊,求大神发送批处理或工具到我邮箱 eWVqaWFsZWk1QGZveG1haWwuY29t
    zhizunzz
        41
    zhizunzz  
       Feb 2, 2020 via Android   1
    @Mavious https://loading.io/ 这个猫之前我用过,在这里找的
    fireflies
        42
    fireflies  
       Feb 2, 2020
    @ssdde 那串字母什么意思
    ssdde
        44
    ssdde  
    OP
       Feb 2, 2020
    @fireflies 你猜,2333
    ssdde
        45
    ssdde  
    OP
       Feb 2, 2020
    @ytf4425 不会被追责的,自己下载下来又不公开,而且下载的又不多。如果奇迹发生真被追责,我说是我自己写的,好吧,大神,批处理求发给我 eWVqaWFsZWk1QGZveG1haWwuY29t
    sunmker
        46
    sunmker  
       Feb 2, 2020
    其实花时间写代码爬,还不如花时间网上找资源来得快
    ssdde
        47
    ssdde  
    OP
       Feb 2, 2020
    @sunmker 网上的资源没这个清华大学出版社原版的好,而且很多也没有,没官方的全
    ytf4425
        48
    ytf4425  
       Feb 2, 2020   1
    @ssdde 发了本书
    ytf4425
        49
    ytf4425  
       Feb 2, 2020   1
    @sunmker 对于某些人来说写代码是一种乐趣,看懂别人网站的运作有一种成就感(非贬义)
    wwilson13
        50
    wwilson13  
       Feb 2, 2020
    @ytf4425 你好。同求这本书。需求也和楼主一样。谢谢。
    ytf4425
        51
    ytf4425  
       Feb 2, 2020   1
    @wwilson13 找楼主要,不用谢
    asger
        52
    asger  
       Feb 2, 2020
    @ytf4425 感谢,文章看懂了,也实现了,就是不怎么会写 python,哭笑
    lisachensyd
        53
    lisachensyd  
       Feb 2, 2020
    @ytf4425 想请教一下大神,jwt secret 会变吗?是不是可以在脚本里写死?
    cyberpoint
        54
    cyberpoint  
       Feb 2, 2020
    右键打印
    ssdde
        55
    ssdde  
    OP
       Feb 3, 2020
    @ytf4425 感谢大神分享啊,授人以鱼不如授人以渔啊,不如教教俺怎样获得啊,难道大神的意思是这本看完自己就会了?
    ssdde
        56
    ssdde  
    OP
       Feb 3, 2020
    @lisachensyd 批处理脚本写好后请发给我,谢谢 eWVqaWFsZWk1QGZveG1haWwuY29t
    ytf4425
        57
    ytf4425  
       Feb 3, 2020
    @lisachensyd 到目前为止没发现变过,所以应该是可以写死的,如果不放心可以请求那个 js 文件在里面提取出来

    @ssdde 对,看完这本书,再看我写的文章,就会了,最后最方便的代码实现需要你会编程(可用 js 编),或者批处理半自动完成。

    @asger 代码可以参考#3 大佬发的自己改一下
    zhzy
        58
    zhzy  
       Feb 3, 2020 via iPhone
    个人感觉如果真是只为了自己学习还是看那几本经典高质量的书吧……或者去看一些网课 下载一堆下来你肯定不会看的 而且这种带版权的东西 怕不是拖全站然后某宝 9.9 资料全集哦
    ytf4425
        59
    ytf4425  
       Feb 3, 2020
    @zhzy 对,清华大学出版社这几天送的书看了一下好像质量高的不多,建议 @ssdde 买更经典的书(如机工社的“你渴望力量吗”华章图书)

    @ssdde #56 的语气不像是请求别人帮忙的语气啊。另外建议真的想学可以把我发的链接先保存下来,这个博客好像不是很稳定,指不定哪天就挂了。先看看,应该是能看懂大半的,就算写不了代码也应该能在浏览器上配合 f12 手动实现一下。
    ssdde
        60
    ssdde  
    OP
       Feb 3, 2020
    @ytf4425 没有啊,他看起来会写出来的样子,我就请他写好后顺便发给我了。我感觉清华大学出版社的内容挺不错啊
    lisachensyd
        61
    lisachensyd  
       Feb 3, 2020 via Android
    @ssdde 不用指望我,3 楼已经有大佬给出 python 脚本了,还有楼上那个指路的大神那篇文章已经讲的很详细了
    christin
        62
    christin  
       Feb 3, 2020 via iPhone
    @Buges 套娃?
    lisachensyd
        63
    lisachensyd  
       Feb 3, 2020
    @ytf4425 首先感谢大神的指路,教程很详细,我基本都看懂了,就是现在用 api client 测试的时候能返回一个图片,看二进制文件头是 PNG,但是大小只有 10kb 左右,保存到本地打不开图片,我已经在这个请求的 headers 中加入了 referer, 不知道哪里出了错
    ytf4425
        64
    ytf4425  
       Feb 3, 2020
    @lisachensyd 如果是文件损坏我没有遇到过。。
    ssdde
        65
    ssdde  
    OP
       Feb 3, 2020
    CNHSK
        66
    CNHSK  
       Feb 3, 2020
    @ssdde 你怎么什么都想爬,自己想办法不是才有意思吗
    ssdde
        67
    ssdde  
    OP
       Feb 3, 2020
    @CNHSK 我这不是通过提问的方式来想办法,学习钻研吗
    lisachensyd
        68
    lisachensyd  
       Feb 3, 2020
    @ytf4425 不知道为什么用 REST api 客户端测试就拿不到正确的图片,用 Python 写入二进制就可以了,不管怎么样感谢大神了!
    Buges
        69
    Buges  
       Feb 4, 2020
    @ssdde #65 看了一下,服务端返回了加密的 pdf,请求 /content/authorize 返回文件 url,在 0.f4c9028886a7b391c0df.1574068669001.js 里搜 impower()下断点解密。你先看完那本 js 再弄这个,正好学以致用。
    yamedie
        70
    yamedie  
       Feb 4, 2020
    我博客有 chrome 控制台批处理下载详解
    歪个楼, 百毒搜 wenquan, 第一个联想词在开车 : D
    ssdde
        71
    ssdde  
    OP
       Feb 4, 2020
    @Buges 哭哦,看完搞懂不知道什么时候了,网站都关闭开放了。可以直接教教怎么下载未加密的原始 pdf 吗大神
    ssdde
        72
    ssdde  
    OP
       Feb 4, 2020
    @yamedie 大神,看了你的博客,下载的是高清图片。69 楼提到的可以下载未加密的原始 PDF,有办法搞吗
    CNHSK
        73
    CNHSK  
       Feb 4, 2020
    @ssdde 不用爬了,已经开始调整了
    ssdde
        74
    ssdde  
    OP
       Feb 4, 2020
    @CNHSK 这就是不早点爬的下场,悲剧啊
    ssdde
        75
    ssdde  
    OP
       Feb 9, 2020
    @Buges 大佬,好像没找到你说的这个 js

    0.f4c9028886a7b391c0df.1574068669001.js
    About     Help     Advertise     Blog     API     FAQ     Solana     922 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 89ms UTC 22:45 PVG 06:45 LAX 15:45 JFK 18:45
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86