现在是否有抵御网页反爬机制的网页存笔记的开源软件?比如可以加延时参数? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
BN5MDKFM

现在是否有抵御网页反爬机制的网页存笔记的开源软件?比如可以加延时参数?

  •  
  •   BN5MDKFM 2025 年 5 月 24 日 2682 次点击
    这是一个创建于 335 天前的主题,其中的信息可能已经有所发展或是发生改变。
    含多图的网页图文存成笔记,但是大量图片会被替换成纯水印图片

    原图如( https://i10.hoopchina.com.cn/editor/e08a7b98516ecef6f8951c860704c907_w_234_h_329_.jpeg?x-oss-process=image/resize,w_800/format,webp)

    被统一替换为( https://w4.hoopchina.com.cn/images/m/default_img_new.png)

    似乎是触发了反爬虫机制?用了 joplin NOTE 和 Obsidian Web Clipper 都是一样结果。

    现在比较笨的办法就是手动分次选中存取,最后进行笔记合并
    [187 页 PPT ,讲清楚从毛坯到入住全流程!点个赞不过分吧!-家装房产区-虎扑社区]( https://bbs.hupu.com/632795761_75999689795421.html)

    [img][/img]

    PS:不考虑把整个网页存成一整张图片这种难以编辑的方法
    第 1 条附言    2025 年 5 月 24 日
    最后结帖总结下:最终的标准答案就是 lazy load 的问题。
    我耐心把网页慢慢滚一遍然后扩展就能完整保存下来了!

    感谢 @mercury233
    第 2 条附言    2025 年 5 月 25 日
    对于大量图片的网页可以用打印预览来检查图片是否彻底加载,即使网页上视觉上加载了(可能还没完全转换为 webp ?),但是对于笔记软件扩展或者“浏览器的网页打印”来说并没有实际上彻底的加载(需要网页慢慢滚才行),

    应该是图片网址后面的服务器参数的造成的独特的问题:

    “x-oss-process=image/resize,w_800/format,webp 是阿里云对象存储服务( OSS )提供的图片处理参数。”
    8 条回复    2025-05-25 00:22:58 +08:00
    w568w
        1
    w568w  
       2025 年 5 月 24 日   1
    这种反爬一般都是 HTTP Referer
    mercury233
        2
    mercury233  
       2025 年 5 月 24 日   1
    更像是 lazyload 之类的优化
    NewYear
        3
    NewYear  
       2025 年 5 月 24 日
    笔记软件带的浏览器插件应该可以解决。
    通过油猴脚本应该也可以,先把 src 变成 base64 的文件值
    可能已经有这样的插件或者油猴脚本了,得找找,或者用 AI 写一个


    说这个我就不得不提一下 QQ 的笔记,截图过去的图片根本就没存,然后随便从其他的笔记里弄一张图片过来代替,而且当场无法发现,过几天缓存没了一看,哦豁。
    sentinelK
        4
    sentinelK  
       2025 年 5 月 24 日   1
    这个应该只是单纯的图片防盗链。
    也就是说,图片无法显示不是没爬到,而是你在这些快照网站打不开。
    BN5MDKFM
        5
    BN5MDKFM  
    OP
       2025 年 5 月 24 日
    @sentinelK 谢谢,确实是防盗链的问题
    beyondstars
        6
    beyondstars  
       2025 年 5 月 24 日
    我对于重要网友一般会长截屏保存,这样完整性比较好,缺点是不便于检索/索引,将来 ai 和笔记软件整合,有望能解决这个问题。
    BN5MDKFM
        7
    BN5MDKFM  
    OP
       2025 年 5 月 24 日
    @mercury233 最后结帖总结下:最终的标准答案就是 lazy load 的问题。

    我耐心把网页慢慢滚一遍然后扩展就能完整保存下来了!

    向您致以最诚挚的感谢!!!
    512357301
        8
    512357301  
       2025 年 5 月 25 日 via Android
    懒加载本身是为了避免图片太多网页卡死,也能降低服务器、cdn 压力。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2798 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 15:03 PVG 23:03 LAX 08:03 JFK 11:03
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86