如何拼凑不同网页的不同部分到一个网页 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jerrywaffle
V2EX    Web Dev

如何拼凑不同网页的不同部分到一个网页

  •  
  •   jerrywaffle 240 天前 3830 次点击
    这是一个创建于 240 天前的主题,其中的信息可能已经有所发展或是发生改变。
    [需求]
    经常浏览不同网站的网页,但是只需要其中一小部分内容。如何把不同网站 A 、B 、C 、D 的各自不同部分拼凑到一起到我个人的页面,提高浏览效率。最好能保持原有内容的交互,比如点击什么的。

    [困难]
    iframe cors 都会有限制的,我只是自己用,不用担心法律问题。

    [方案]
    1/ python 爬虫,本地 render ,然后提取内容,可以保存为图片,但是最好是文字的,保留 style 。然后拼凑到自己网页

    2/ 用 qt webview 什么的,但是想要一个网页版的,不要本地 app

    3/ 好像有 caddy reverse proxy 绕过 iframe cors 限制

    万能的 v2exer 请给出你宝贵的可行建议,谢谢!
    第 1 条附言    239 天前
    之前貌似见到过 arc 浏览器有个类似的剪报功能,类似小时候剪报纸拼到自己的笔记本上。
    24 条回复    2025-04-08 11:33:02 +08:00
    9ki
        1
    9ki  
       240 天前
    我最近在开发一个类似的东西,从技术来说是可行的
    mumbler
        2
    mumbler  
       240 天前
    准确描述需求,让 cursor+gemini pro 2.5 来处理
    jerrywaffle
        3
    jerrywaffle  
    OP
       240 天前 via iPhone
    @9ki 要是能弄成 drag and plug 简化操作最好。你是什么思路呢?
    jerrywaffle
        4
    jerrywaffle  
    OP
       240 天前 via iPhone
    @mumbler 问过大模型了,感觉思路不是很靠谱。
    mumbler
        5
    mumbler  
       240 天前
    @jerrywaffle #4 拼凑页面让大模型来生成肯定是可行的,大不了页面复杂一点,但这样做价值到底有多大,看页面为了获取信息,保持页面样式除了感动自己,并不会增加页面的主要作用。让大模型从原页面获取信息,按最适合的方式重新生成页面,无需保持原页面样式,这样更可行
    jerrywaffle
        6
    jerrywaffle  
    OP
       240 天前 via iPhone
    @mumbler 有图表 数据 啊 不全是文字
    mumbler
        7
    mumbler  
       240 天前
    @jerrywaffle #6 让大模型重建图表,数据很简单,但不一定是原来的样式,原来的配色,原来的组件,参考 deep research 的产品逻辑,从几十个数据源获得数据,然后重组写一份详细的研究报告,非常成功
    lixikei
        8
    lixikei  
       239 天前
    iframe cors 都会有限制的,我只是自己用,不用担心法律问题。

    nginx 反代一下,去掉页面上的限制,就行了。
    jerrywaffle
        9
    jerrywaffle  
    OP
       239 天前 via iPhone
    @mumbler 谢谢你热心回复。这个办法也是一个办法,具体网页得具体实现。如果能有个通用一点的答案更好了。
    jerrywaffle
        10
    jerrywaffle  
    OP
       239 天前 via iPhone
    @lixikei 貌似有的网页会检查在不在 iframe 里面,如果在就反抗一下。
    还有 iframe 能不能实现自动滚动到某个位置浏览特定区域呢?
    inhzus
        11
    inhzus  
       239 天前
    https://resources.arc.net/hc/en-us/articles/19231142050071-Easels-Capture-Create
    Arc 浏览器提供了这个功能,不过用起来一般般
    jerrywaffle
        12
    jerrywaffle  
    OP
       239 天前 via iPhone
    @inhzus 对,就是这个。感觉浏览器自身能支持就好。能动态更新截图,也可以静态。你说的一般般是什么体验?
    lixikei
        13
    lixikei  
       239 天前
    @jerrywaffle 用反代就是用来去掉 他那些检测的,iframe 可以设置自动滚动到某个位置的。
    mingl0280
        14
    mingl0280  
       239 天前 via Android
    绕过 iframe 限制就行了:
    我之前做过这个,就是给后端塞个反代的事儿。
    Archeb
        15
    Archeb  
       239 天前
    让我想起来一个叫 Button Stealer 的扩展
    tcper
        16
    tcper  
       239 天前
    你自己写个抓取任务,从你要的页面里抓到数据后,自己实现页面
    想直接用别人的页面基本不太可能。

    不过还可以给你提供一个思路,如果你想要的页面不需要操作,可以用一个虚拟机打开这些页面,然后开一个 OBS ,自己再建一个串流服务器,再用一个网页把几个视频合在一起就行了。
    jerrywaffle
        17
    jerrywaffle  
    OP
       239 天前 via iPhone
    @tcper obs 这个思路有点意思!
    UnluckyNinja
        18
    UnluckyNinja  
       239 天前
    自用要修改 cors 头,直接用 modheader 之类的 http 报文修改工具就行了,最省事的方案
    kkky
        19
    kkky  
       239 天前
    单纯阅读的话有点像 RSS
    jerrywaffle
        20
    jerrywaffle  
    OP
       239 天前
    @kkky rss 有实现一些,一个源一个看。这个拼凑的话,可以一个页面展示多个源。
    jerrywaffle
        21
    jerrywaffle  
    OP
       239 天前
    @UnluckyNinja V2EX 果然藏龙卧虎,这个第一次听说
    inhzus
        22
    inhzus  
       239 天前 via iPhone
    @jerrywaffle UI 设计体验比较一般,稍微有些别扭。而且这个浏览器现在已经不做功能更新了
    jerrywaffle
        23
    jerrywaffle  
    OP
       239 天前 via iPhone
    @inhzus 试了一下,有时候截屏大小不能完全控制。不过这个功能确实是浏览器开创性的!
    x009ba1
        24
    x009ba1  
       237 天前
    之前有类似需求,做了一个预览链接的插件,实现就是用 puppeteer 把网页截图存下来
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3911 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 05:24 PVG 13:24 LAX 21:24 JFK 00:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86