求助,图像内容理解方案推荐 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Egfly

求助,图像内容理解方案推荐

  •  
  •   Egfly 2024 年 2 月 21 日 2004 次点击
    这是一个创建于 795 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在手上有一个项目,需要用几个简单的词描述一下图片里的内容、拍摄距离(远、中、近)、光线的亮度(低、中、高)。由于图片数量比较大,人工去处理比较慢。

    目前考虑的方案有以下三个:

    1 、使用 chatgpt 4, 实验之后感觉效果不错。缺点是速度比较慢,而且 chatgpt4 有使用频率限制,一天处理不了多少图片。不知道有没有其他的平台有提供类似的服务,最好是可以用 api 的方式调用

    2 、自己租一台服务器,去跑模型,目前看了一下 minigpt4, 效果未知。有没有其他的模型推荐

    3 、人工一张一张处理

    大佬们,有没有其他什么好的方案推荐?
    第 1 条附言    2024 年 2 月 21 日

    描述示例

    图片

    描述: restaurant menu card

    图片

    描述:cheesecake store

    图片

    描述:Advertisement of limited offer in McDonald's

    10 条回复    2024-02-21 16:45:04 +08:00
    jr55475f112iz2tu
        1
    jr55475f112iz2tu  
       2024 年 2 月 21 日   1
    “需要用几个简单的词描述一下图片里的内容”

    举个例子,最后要描述成什么样
    casatAway
        2
    casatAway  
       2024 年 2 月 21 日   1
    gpt4 不是提供了 api 了吗,minigpt4 和 gpt4 差距很大
    Egfly
        3
    Egfly  
    OP
       2024 年 2 月 21 日
    @czfy 老哥,我 append 了
    Egfly
        4
    Egfly  
    OP
       2024 年 2 月 21 日
    @h272377502 gpt4 api 有调用频率限制吗
    dobelee
        5
    dobelee  
       2024 年 2 月 21 日   1
    看你的例子可不“简单”。图二需要通过 cake 等字眼结合分析才能得到是餐厅,图三需要识别麦当劳的 logo 才能得出是麦当劳的广告。一般给照片内容识别打标签的 AI 没训练到这程度吧,还是得上 chatgpt 或者 gemini 。
    Egfly
        6
    Egfly  
    OP
       2024 年 2 月 21 日
    @dobelee 麦当劳和餐厅这个不是必要的,可以识别出是广告牌和门店招牌就行
    jZEdn7k4
        7
    jZEdn7k4  
       2024 年 2 月 21 日 via iPhone   2
    你这个任务叫 image captioning ,github 用这个关键词搜一下,不少开源代码和模型的,当然质量比不上 gpt 也不会太差
    Puteulanus
        8
    < href="/member/Puteulanus" class="dark">Puteulanus  
       2024 年 2 月 21 日   1
    我之前用过 IBM Watson Visual Recognition ,不知道现在还活着没
    国内的用过腾讯的万象优图 https://cloud.tencent.com/document/product/460/39082
    loi1noG2463cVpXu
        9
    loi1noG2463cVpXu  
       2024 年 2 月 21 日 via Android   1
    人工,增加工作机会,造福社会
    vivisidea
        10
    vivisidea  
       2024 年 2 月 21 日   1
    https://huggingface.co/models?other=image-captioning

    调用 gpt 的 api 或者找找开源的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3017 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 14:11 PVG 22:11 LAX 07:11 JFK 10:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86