为什么 LLM 不擅长数饺子? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xuchkang171
V2EX    机器学习

为什么 LLM 不擅长数饺子?

  •  
  •   xuchkang171 240 天前 3158 次点击
    这是一个创建于 240 天前的主题,其中的信息可能已经有所发展或是发生改变。
    31 条回复
    sillydaddy
        1
    sillydaddy  
       240 天前
    容易眩晕产生幻觉。你数你也晕。
    xuchkang171
        2
    xuchkang171  
    OP
       240 天前
    智能驾驶都 L3 了,GPT 都能像人似的视频通话了,LLM 对图片进行描述时也知道方位。LLM 识别图片时,肯定有每个物品的坐标信息,剩下的工作不是统计一下就行了吗?
    xuchkang171
        3
    xuchkang171  
    OP
       240 天前
    @sillydaddy 哈哈,数了不到十个,犯懒直接掏出 AI 想让 AI 让我数,结果发现平日里各个几乎无所不能的 LLM 却没一个能帮我数饺子。
    paopjian
        4
    paopjian  
       240 天前
    你真把 LLM 当万能答题机了? 有专门数签子的 AI, 想数饺子要么找更强模型要么专门训练
    mazyi
        5
    mazyi  
    PRO
       240 天前
    130 个,chatgpt 的答案
    chanlk
        6
    chanlk  
       240 天前
    你可以用大量的饺子图片去训练一个专属的数饺子 AI ,准确率可以极高, 训练出来的模型也很小,普通电脑都可以跑。
    beixiao
        7
    beixiao  
       240 天前
    op 饺子包的不错
    defaw
        8
    defaw  
       240 天前
    有数数用的专用模型,倒也犯不着直接用 vl 模型数数
    xiadengmaX1
        9
    xiadengmaX1  
       240 天前
    LLM 和 CV 的区别
    aogu555
        10
    aogu555  
       240 天前
    答案就在标题里,LLM 全称叫 [大型语言模型] ( Large Language Model )
    yaron1123
        11
    yaron1123  
       240 天前
    现在多模态大模型的视觉编码器倾向于提取图像整体特征,对每个物品的坐标定位是差的
    pkoukk
        12
    pkoukk  
       240 天前
    因为 LLM 叫语言模型,不叫视觉模型,这个需求你可以找 cv
    wclebb
        13
    wclebb  
       240 天前
    我放 ChatGPT 去数了,因不能粘贴 AI 答案。
    意思说大概在 97 ~ 100 个左右。
    LianOuPaiGuT
        14
    LianOuPaiGuT  
       240 天前
    @mazyi 一共 81 个,AI 都是瞎编的
    yoyolichen
        15
    yoyolichen  
       240 天前
    看饿了
    zhoujx
        16
    zhoujx  
       240 天前
    我用豆包数了一下,回答是:图中饺子共 86 个。它们整齐地摆放在盖帘上,下面还有一盆饺子馅呢。
    SmiteChow
        17
    SmiteChow  
       240 天前
    人工智障而已,不要抱有侥幸心理。
    v2tex
        18
    v2tex  
       240 天前
    挺好,以后就拿这个图测试 AI 的智能程度
    maojun
        19
    maojun  
       240 天前 via iPhone
    我发现很多不了解 LLM 的人喜欢把它当作某种神力…数东西就找 cv 嘛
    rmijzy
        20
    rmijzy  
       240 天前
    72 个 -> grok
    shenyiyouge
        21
    shenyiyouge  
       240 天前
    @beixiao 你是南方人吧
    wxiao333
        22
    wxiao333  
       240 天前
    有一个 app 可以自动数 竹签数量的(四川火锅串串常用),原理类似吧
    beixiao
        23
    beixiao  
       240 天前
    @shenyiyouge 不是,北方人
    rqYzyAced2NbD8fw
        24
    rqYzyAced2NbD8fw  
       240 天前
    @beixiao #23 吃桌角吗
    beixiao
        25
    beixiao  
       240 天前
    @LanhuaMa 我们那吃桌,不吃桌角
    shenyiyouge
        26
    shenyiyouge  
       240 天前
    @beixiao #23 青岛,在我们这里饺子包成这样要挨骂的
    oxykr
        27
    oxykr  
       240 天前 via iPhone
    81=>我
    MartinYANG06
        28
    MartinYANG06  
       240 天前
    说明大规模语言模型+视觉模块的能力做的还不够优秀。
    gesse
        29
    gesse  
       240 天前
    很简单,没有训练过这么多饺子图+饺子数答案的问答。
    即使抓遍互联网,估计也没有多少这两的训练素材。

    如果要追求准确,可以自己编写几十万个素材集训练,应该可以有效果
    ggp1ot2
        30
    ggp1ot2  
       239 天前
    > The image has been displayed. To count the number of dumplings in the image, I'll need to apply image processing techniques. Let me analyze it for you.
    >
    > The image contains approximately 941 dumplings. This count is based on the number of detected contours in the image.

    来自 ChatGPT o3-mini
    silencelixing
        31
    silencelixing  
       239 天前
    有没有人告诉我正确答案应该是多少个?我懒得数了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5504 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 08:58 PVG 16:58 LAX 01:58 JFK 04:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86