故宫博物院的藏品图,防爬 老牛哔了,切得七零八落 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Mavious

故宫博物院的藏品图,防爬 老牛哔了,切得七零八落

  •  
  •   Mavious 2019 年 7 月 23 日 3784 次点击
    这是一个创建于 2467 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有几个藏品美的不行,想下载原图看。 抓包看了下,特么的切成尺寸 200 多的方块碎片,7_5.jpg ,4_10.jpg 等等等等

    其实要爬也容易,找规律批量 down 碎片下来拼。

    可是我并不想爬啊,下载几张高清晰藏品图欣赏欣赏就行了,费这老牛鼻子的功夫。。。。 恼火。

    都是公版古董了,还搞得七零八落,难不成公版还怕人山寨。

    要下的藏品是这个

    www。dpm。org。cn/collection/jewelry/231382.html

    第 1 条附言    2019 年 7 月 24 日
    一早起来发现光涨收藏不涨回复啊!大神呢大神呢???
    有大神给看看 10~11 楼的钓原图,有戏么???钓出来就是完美解决啦~~

    临时性解决办法在 13L
    22 条回复    2019-11-01 12:18:15 +08:00
    yamedie
        1
    yamedie  
       2019 年 7 月 23 日
    Kirscheis
        2
    Kirscheis  
       2019 年 7 月 23 日 via Android
    虚拟屏幕截图大法可破
    Mavious
        3
    Mavious  
    OP
       2019 年 7 月 23 日
    @yamedie 看放大图,有更大的呢。不知道有多大,反正比 1024 大一点。
    nolo
        4
    nolo  
       2019 年 7 月 23 日
    @Kirscheis 有水印哈哈
    Mavious
        5
    Mavious  
    OP
       2019 年 7 月 23 日
    我以为只是为了节省流量才切碎的
    结果看到这个藏品不让唤起 F12,就知道是故意这么搞的了
    digicol。dpm。org。cn/cultural/detail?id=ce90d95c05aa41bc83477df2e07a3fd6

    当然要强制唤起也容易,先 F12 再开链接嘛。。。。要么上 fiddler
    当然这个藏品也是切碎的了。

    然后找了个现成轮子,但是作者什么注释都没有,看得一头雾水。。
    github。com/EternalZZX/dpm-download/blob/master/download.py
    Mavious
        6
    Mavious  
    OP
       2019 年 7 月 23
    @nolo 你抓包看一下就明白了,水印是一张单独的透明底 png,直接用 ublock 毙掉就行了。
    但是大图是不成的了,只有人工拼了。要么暴力截图。我屏幕 19 寸,暴力截图效果也不好。而且我想要原图。。。。
    dodo2012
        7
    dodo2012  
       2019 年 7 月 23 日
    这切图的切的,是为了加载么?
    yamedie
        8
    yamedie  
       2019 年 7 月 23 日   2
    打开控制台
    var c = document.querySelector('canvas');
    c.toDataURL();
    得到图片的 base64 串
    但有一个问题是: 超出屏幕可见区域的部分画面不显示, 谁再想想办法, 感觉是用不着拼接的
    Mavious
        9
    Mavious  
    OP
       2019 年 7 月 23 日
    更新一下,看到一个教程了,按图索骥,原图尺寸
    <Size Width="4707" Height="3713" />

    教程采用的方法是暴力下载全部碎片,再拼接。。。

    zhuanlan。zhihu。com/p/4412 [不是 QQ 号你干嘛不让我发呢] 1393

    感谢 8 楼,我还在搜索方案。
    故宫这么有名,说不定也有人遇到了和我一样的困难。。。
    silencefent
        10
    silencefent  
       2019 年 7 月 23 日   2
    openseadragon.github.io
    不是反爬,是用了这个轮子,点开图片后的大图类似地图异步加载图块
    找原图要研究这个轮子把原图位置默认放在那个路径下
    NotNil1
        11
    NotNil1  
       2019 年 7 月 23 日   1
    @silencefent 我从网上看,这个轮子是可以不放原图的,原图切好后放到这个网站目录下就可以使用,所以可能,下载不到原图。一个简单的例子 https://www.cnblogs.com/yingjiehit/p/4362377.html。
    bibizhang
        12
    bibizhang  
       2019 年 7 月 23 日
    10 楼说的对,高清的大图都得这么搞。
    NotNil1
        13
    NotNil1  
       2019 年 7 月 23 日   1
    @Mavious 我试了 4 楼的 py 脚本,可以下载,命令就是

    python download.py https://en.dpm.org.cn/dyx.html?path=/tilegenerator/dest/files/image/8831/2011/3479/img0007.xml

    会有一个缩略图,和一个文件夹,文件夹中是切割好的图片,按照矩阵拼接起来就好了
    learnshare
        14
    learnshare  
       2019 年 7 月 23 日   1
    瓦片图,地图也都是这么处理的,因为没法一次加载所有数据
    Mavious
        15
    Mavious  
    OP
       2019 年 7 月 23 日 via iPhone
    @ljtletters 谢谢,我是 py3.6,运行了一下发现没有 pil 模块,回去装上模块再试
    NotNil1
        16
    NotNil1  
       2019 年 7 月 23 日   1
    @Mavious
    我用的 python2 没问题。
    我发现那个不是缩略图就是合并好的图,merge_pic 方法就是合并图片的方法。
    合并后的图只有几百 K 大,所以第一次看结果给我造成了误解。
    LZSZ
        17
    LZSZ  
       2019 年 7 月 23 日
    这些文物要是能 360 度看就好了
    Mavious
        18
    Mavious  
    OP
       2019 年 7 月 23 日   2
    @ljtletters

    折腾了一下,模块装好了,SSL 证书报错,摆渡了一下,加了个 verify=False 跳过了。然后就跑起来了。
    很不错,如你所说,有碎片也有( 285 个碎片,1.28MB ),合成图也有( 1MB )。
    xml 文件里说是 4707x3713,合成之后是 4743x3741,基本一致,在找不到原图的情况下……已经非常好了。
    so goooooooooood
    圆满解决。开心了卷走了七八个藏品图。
    谢谢你。

    --------------

    那个轮子……我技术很差,基本没看懂原图搁哪儿了=_=
    xmoiduts
        19
    xmoiduts  
       2019 年 7 月 23 日 via Android
    想起了我爬 overviewer minecraft 地图瓦片的那段日子,要拼接 /比对差异,竟然用 pillow 一个库就撸出来了。
    anteros
        20
    anteros  
       2019 年 7 月 24 日
    谷歌文化学院的图片也是瓦片图,弄了很久,放弃了
    Threeinchtime
        21
    Threeinchtime  
       2019 年 7 月 24 日
    selenium 一把唆
    Apol1oBelvedere
        22
    Apol1oBelvedere  
       2019 年 11 月 1 日
    下载图片容易,就是少一个智能拼合图片的工具
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     930 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 58ms UTC 22:34 PVG 06:34 LAX 15:34 JFK 18:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86