为什么 LLM 不擅长数饺子? - V2EX
xuchkang171

为什么 LLM 不擅长数饺子?

  •  
  •   xuchkang171 Feb 19, 2025 3676 views
    This topic created in 451 days ago, the information mentioned may be changed or developed.
    31 replies
    sillydaddy
        1
    sillydaddy  
       Feb 19, 2025
    容易眩晕产生幻觉。你数你也晕。
    xuchkang171
        2
    xuchkang171  
    OP
       Feb 19, 2025
    智能驾驶都 L3 了,GPT 都能像人似的视频通话了,LLM 对图片进行描述时也知道方位。LLM 识别图片时,肯定有每个物品的坐标信息,剩下的工作不是统计一下就行了吗?
    xuchkang171
        3
    xuchkang171  
    OP
       Feb 19, 2025
    @sillydaddy 哈哈,数了不到十个,犯懒直接掏出 AI 想让 AI 让我数,结果发现平日里各个几乎无所不能的 LLM 却没一个能帮我数饺子。
    paopjian
        4
    paopjian  
       Feb 19, 2025
    你真把 LLM 当万能答题机了? 有专门数签子的 AI, 想数饺子要么找更强模型要么专门训练
    bigdogbigpig
        5
    bigdogbigpig  
    PRO
       Feb 19, 2025
    130 个,chatgpt 的答案
    chanlk
        6
    chanlk  
       Feb 19, 2025
    你可以用大量的饺子图片去训练一个专属的数饺子 AI ,准确率可以极高, 训练出来的模型也很小,普通电脑都可以跑。
    beixiao
        7
    beixiao  
       Feb 19, 2025
    op 饺子包的不错
    defaw
        8
    defaw  
       Feb 19, 2025
    有数数用的专用模型,倒也犯不着直接用 vl 模型数数
    xiadengmaX1
        9
    xiadengmaX1  
       Feb 19, 2025
    LLM 和 CV 的区别
    aogu555
        10
    aogu555  
       Feb 19, 2025
    答案就在标题里,LLM 全称叫 [大型语言模型] ( Large Language Model )
    yaron1123
        11
    yaron1123  
       Feb 19, 2025
    现在多模态大模型的视觉编码器倾向于提取图像整体特征,对每个物品的坐标定位是差的
    pkoukk
        12
    pkoukk  
       Feb 19, 2025
    因为 LLM 叫语言模型,不叫视觉模型,这个需求你可以找 cv
    wclebb
        13
    wclebb  
       Feb 19, 2025
    我放 ChatGPT 去数了,因不能粘贴 AI 答案。
    意思说大概在 97 ~ 100 个左右。
    LianOuPaiGuT
        14
    LianOuPaiGuT  
       Feb 19, 2025
    @mazyi 一共 81 个,AI 都是瞎编的
    yoyolichen
        15
    yoyolichen  
       Feb 19, 2025
    看饿了
    AshPenn
        16
    AshPenn  
       Feb 19, 2025
    我用豆包数了一下,回答是:图中饺子共 86 个。它们整齐地摆放在盖帘上,下面还有一盆饺子馅呢。
    SmiteChow
        17
    SmiteChow  
       Feb 19, 2025
    人工智障而已,不要抱有侥幸心理。
    v2tex
        18
    v2tex  
       Feb 19, 2025
    挺好,以后就拿这个图测试 AI 的智能程度
    maojun
        19
    maojun  
       Feb 19, 2025 via iPhone
    我发现很多不了解 LLM 的人喜欢把它当作某种神力…数东西就找 cv 嘛
    rmijzy
        20
    rmijzy  
       Feb 19, 2025
    72 个 -> grok
    shenyiyouge
        21
    shenyiyouge  
       Feb 19, 2025
    @beixiao 你是南方人吧
    wxiao333
        22
    wxiao333  
       Feb 19, 2025
    有一个 app 可以自动数 竹签数量的(四川火锅串串常用),原理类似吧
    beixiao
        23
    beixiao  
       Feb 19, 2025
    @shenyiyouge 不是,北方人
    rqYzyAced2NbD8fw
        24
    rqYzyAced2NbD8fw  
       Feb 19, 2025
    @beixiao #23 吃桌角吗
    beixiao
        25
    beixiao  
       Feb 19, 2025
    @LanhuaMa 我们那吃桌,不吃桌角
    shenyiyouge
        26
    shenyiyouge  
       Feb 19, 2025
    @beixiao #23 青岛,在我们这里饺子包成这样要挨骂的
    oxykr
        27
    oxykr  
       Feb 19, 2025 via iPhone
    81=>我
    MartinYANG06
        28
    MartinYANG06  
       Feb 19, 2025
    说明大规模语言模型+视觉模块的能力做的还不够优秀。
    gesse
        29
    gesse  
       Feb 19, 2025
    很简单,没有训练过这么多饺子图+饺子数答案的问答。
    即使抓遍互联网,估计也没有多少这两的训练素材。

    如果要追求准确,可以自己编写几十万个素材集训练,应该可以有效果
    ggp1ot2
        30
    ggp1ot2  
       Feb 19, 2025
    > The image has been displayed. To count the number of dumplings in the image, I'll need to apply image processing techniques. Let me analyze it for you.
    >
    > The image contains approximately 941 dumplings. This count is based onthe number of detected contours in the image.

    来自 ChatGPT o3-mini
    silencelixing
        31
    silencelixing  
       Feb 19, 2025
    有没有人告诉我正确答案应该是多少个?我懒得数了
    About     Help     Advertise     Blog     API     FAQ     Solana     891 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 74ms UTC 20:17 PVG 04:17 LAX 13:17 JFK 16:17
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86