这些大模型也真的是狗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
sch1111878
V2EX    程序员

这些大模型也真的是狗

  •  
  •   sch1111878 1 天前 2839 次点击

    我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,

    训练一圈下来识别率很低(当然这里可能是我写的代码都不行

    训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好

    今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊 咋地, 你说他们狗不狗

    优点: 懂语义:它看过几十亿张图,知道"骑马的人"长啥样,不会被背景搞晕。 无需训练:不用洗数据,不用跑 epoch ,直接推理。 泛化强:全身照、半身照、卡通图都能认。 
    20 条回复    2025-11-24 11:55:14 +08:00
    paopjian
        1
    paopjian  
       1 天前
    如果只是识别性别年龄这种任务, 直接上 CLIP 有点大炮打蚊子了, 不应该是先用开源模型试验效果么, 比如 insightface 这种, 再考虑是自己训练/整理集,
    mobilenet 单纯速度快, 效果低太多了, backbone 有很多选择 mobilenet darknet resnet, 不用指着一个死磕, 你问 AI 什么他们肯定怎么回答你
    不懂你这狗不狗什么意思?
    v2gba
        2
    v2gba  
       1 天前
    可能和你的 prompt 也有关系
    大部分 AI 有附和用户的毛病(除非用户错的厉害)
    lloovve
        3
    lloovve  
       1 天前 via iPhone   2
    能不能有点自己的主见?这东西完全要靠自己去验证,具体性能和模型,具体训练的样本,还有优化都有关,不要妄想用简单的东西解决这么复杂的问题,现在人都没办法完全看图个图估计准确年龄。
    tool2dx
        4
    tool2dx  
       1 天前
    你说人狗我还能理解, AI 吐出来的就只是训练数据, 根据你的提问给最佳回答,有啥狗不狗的。

    人会骗你,AI 又不会。
    zizon
        5
    zizon  
       1 天前
    时代变了,hallucinate 都有人拨乱反正了.
    Alias4ck
        6
    Alias4ck  
       1 天前
    就是懒哈哈哈 总想一口吃个胖子
    sch1111878
        7
    sch1111878  
    OP
       1 天前
    @v2gba 这个我非常赞同, 很多时候我提示词 规则都写上, 你要有自己的主见, 不要因为我的质疑动摇, 还是不行...
    sch1111878
        8
    sch1111878  
    OP
       1 天前
    @paopjian 感谢回复, 我这小公司, 就几个人, 也没有相关资源去请教探讨, 真的难受

    我用 utkface 数据集训练的, 发现这个数据集的标注本身就有问题, 训练出来的也很离谱

    deepface 和 insightface 都试了,
    sch1111878
        9
    sch1111878  
    OP
       1 天前
    @tool2dx 我意思几个模型回答的前后不一致, 差异大
    sch1111878
        10
    sch1111878  
    OP
       1 天前
    @Alias4ck 不是懒, 是我自己太菜了, 公司又小, 外部资源也不多...
    sch1111878
        11
    sch1111878  
    OP
       1 天前
    @paopjian 一张图证明我用了 insightface, 主要这结果也太不靠谱了

    https://imgur.com/a/MbdmZ20
    aeron
        12
    aeron  
       1 天前
    大模型还是个猜词游戏,倾向于顺着你得思路去回答,这种问题你最好自己搜一下资料,有个自己的思路,然后去问大模型具体的实现方法细节之类的,不能没有一点想法的被大模型带着跑,容易进坑。
    sch1111878
        13
    sch1111878  
    OP
       1 天前
    @aeron 感谢
    sch1111878
        14
    sch1111878  
    OP
       1 天前
    一开始给我推荐 utkface 这个数据集, 我验证后发现非常不准, 然后提出质疑 又说这个老旧不行了
    gitlight
        15
    gitlight  
       1 天前
    你应该让模型帮你完成的是模型搜索调研任务,别让 AI 加入决策流程,语言模型又不能帮你背锅
    paopjian
        16
    paopjian  
       1 天前
    @sch1111878 我竟然觉得这没啥问题, 性别没问题, 年龄预测这个任务很难的, 顶多能判断是婴儿 青年 老年, 细致了光影一变就结果就变了
    sch1111878
        17
    sch1111878  
    OP
       22 小时 19 分钟前
    @paopjian 这个的确啊 光线, 妆容都会影响, 但是业务上不认同
    sch1111878
        18
    sch1111878  
    OP
       22 小时 17 分钟前
    @paopjian 其他我也就认了, utkface 和 fireface 这里数据集标注都很离谱, 现在去生产环境的数据自己打标来训练一版试试了, 浪费了好几天时间
    ykk
        19
    ykk  
       21 小时 34 分钟前
    开源数据想训练工业模型是伪命题,开源模型都是屎,包括 insightface
    zhmouV2
        20
    zhmouV2  
       6 小时 19 分钟前
    只能预测年龄段 别想着预测精确年龄了。。。
    海康的相机也采集不到那么精准的结构化数据
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3891 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 45ms UTC 10:14 PVG 18:14 LAX 02:14 JFK 05:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86