opus 的视觉能力是不是不如 gpt5.4? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cairnechen

opus 的视觉能力是不是不如 gpt5.4?

  •  
  •   cairnechen 3 月 27 日 1465 次点击
    写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置,估算坐标,定位目标区域(可以迭代式地调整目标范围) GPT5.4 完成起来毫不费力,opus 坐标漂移的程度很夸张(大量目视判断后重试),问了下,claude 说自己看到的不是全图,而是看到渲染到会话的缩略图,比如一个 2000 宽度的图片,他实际看到的是 600 像素,这么变态的吗?
    7 条回复    2026-03-28 23:28:53 +08:00
    liulicaixiao
        1
    liulicaixiao  
       3 月 27 日
    分辨率问题,需要自己提前调整图片。
    liu731
        2
    liu731  
    PRO
       3 月 27 日
    视觉这块还得 Gemini
    cairnechen
        3
    cairnechen  
    OP
       3 月 27 日
    @liulicaixiao 要怎么调整,我刚才发现一个更奇葩的情况,让 cladue 知道图片的尺寸,它的处理能力就提升很多(准确性提高),是的,只要它知道图片尺寸其他什么都不用干就能提升处理能力。。。 奇怪的是,claude code 明明有 file 工具可以拿到图片信息,但是它自己不会主动用。。。
    sillydaddy
        4
    sillydaddy  
       3 月 27 日
    其实 benchmark 分数可以证明,不过我还是喜欢这个帖子里的视觉测试:
    /t/1192001

    当时我测试了只有 codex 5.3 extra high 能解决。不知道最新的 5.4 能不能解决,起码 Opus 4.6 是不行的。
    VeryZero
        5
    VeryZero  
       3 月 28 日
    要先确认是缩放导致的位置不对还是 opus 认错了。

    大概率是缩放导致的,这样的话等比例算回来就行了。千问的视觉模型也有这毛病,1920 的图片,它实际处理的时候缩放成了 1000 ,导致返回的位置是有偏移的
    cairnechen
        6
    cairnechen  
    OP
       3 月 28 日
    @VeryZero 嗯,看了文档,claude 缩放的门槛是 1580px 或者 1.15M 像素或者~1600 token ,超过了就缩放,我那张图肯定触发了,为什么我告诉它实际图片尺寸之后它准确性提高了,是因为它开始用比例方式换算坐标了
    idragonet
        7
    idragonet  
       3 月 28 日
    视觉绝对 Gemini 第一!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2753 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 09:47 PVG 17:47 LAX 02:47 JFK 05:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86