今天使用 YOLO 第一次训练视觉模型,真的好强大。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
jiayouzl
V2EX    程序员

今天使用 YOLO 第一次训练视觉模型,真的好强大。

  •  1
     
  •   jiayouzl 33 天前 8344 次点击
    这是一个创建于 33 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前一直有听说 YOLO 非常牛逼,但一直没项目用到也就没特别关注过,最近有东西要做问了 AI 解决思路推荐用视觉大模型。立马 clone 了 YOLO V8 仓库,标注,训练,测试。感觉发现新大陆一样,真的好强大!可以说超出了认知范围,因为如果按没有大模型年代的思路想完成真的是个好庞大的工程。

    54 条回复    2025-09-27 12:12:34 +08:00
    ATKLLL
        1
    ATKLLL  
       33 天前
    主要是性能太强了 中端游戏显卡随便跑
    owen800q
        2
    owen800q  
       33 天前 via iPhone
    @ATKLLL 可以识别车牌吗, 最近有个项目要搞这个
    ptstone
        3
    ptstone  
       33 天前
    可以同时识别车牌 道路标识 人脸的模糊吗,我需要做视频脱敏处理,还没开始做,网上推荐使用这个库,现在是 YOLO 11 比较好了
    sillydaddy
        4
    sillydaddy  
       33 天前
    能具体说下做的是什么嘛?
    Myprajna
        5
    Myprajna  
       33 天前
    而且配置要求很低,200 元的开发版都能跑。
    jackenliu
        6
    jackenliu  
       33 天前
    每次出现 AI 都很强大,次次都强大,评分永远没比过 OpenAI
    Muniesa
        7
    Muniesa  
       33 天前   27
    @jackenliu #6 转人工
    YsHaNg
        8
    YsHaNg  
       33 天前 via iPhone   2
    @jackenliu 卖好码吃上了吗
    jiayouzl
        9
    jiayouzl  
    OP
       33 天前
    @sillydaddy 统计相关的一个项目。
    jiayouzl
        10
    jiayouzl  
    OP
       33 天前
    @ATKLLL 是的,我这边目前就一块 3060ti 一直闲置着正好能跑 CUDA ,然后训练的模型转下格式就可以在 macos 下继续调用开发了。
    jiayouzl
        11
    jiayouzl  
    OP
       33 天前
    @Myprajna 是的,很方便。
    jiayouzl
        12
    jiayouzl  
    OP
       33 天前
    @ptstone YOLO v11 我没用过,我是看了下文章在 V5 和 V8 里选择了下,反正都能用,v12 也出了现在。并不是说 V 越高=越好,只是划分的领域更细点的区别。
    yolee599
        13
    yolee599  
       33 天前 via Android
    @jackenliu #6 别上来就比,起码要了解过再说话啊,YOLO 根本就不是大语言模型,你拿鸭跟鸡比怎么比?
    Belmode
        14
    Belmode  
       33 天前   1
    @jackenliu #6 YOLO 是传统 NLP 深度学习模型,和现在的 AI 大模型也不一样啊?而且 YOLO 也不是现在才流行,我都看不懂你这话里话外的意思。
    Belmode
        15
    Belmode  
       33 天前
    之前做过一个 YOLOV8 的 LOL 助手,效果确实不错。用英雄头像训练,可以记录小地图英雄最后丢失的位置和英雄丢失时间,防 gank 效果非常好。
    bybyte
        16
    bybyte  
       33 天前
    @Belmode YOLO 不是 CV 领域的模型吗,,怎么是 NLP 了。。
    PinkPumpkin
        17
    PinkPumpkin  
       33 天前   1
    yolo 不是大模型,是小模型,而且卖点就是又小又快
    Jakarta
        18
    Jakarta  
       33 天前 via Android   1
    yolo 跟大模型没啥关系,甚至是两个不同的 AI 方向,一个是视觉,一个是语言。
    gpt5
        19
    gpt5  
       33 天前   1
    当人们提到“ai 应用”的时候,保守说,1/3 都用到了 yolo 。
    srsman
        20
    srsman  
       33 天前
    用 Hailo-8 跑
    Tink
        21
    Tink  
    PRO
       33 天前
    @jackenliu #6 不是一个东西,你这个比法,相当于潜水艇比飞机
    listen2wind
        22
    listen2wind  
       33 天前 via Android   1
    想问下 yolo 可以做比如建筑垃圾、河道垃圾、违章建筑之类的一些识别区分吗?
    capric
        23
    capric  
       32 天前   1
    @listen2wind 当然可以
    okampfer
        24
    okampfer  
       32 天前
    @jiayouzl #10 转格式是转成 ONNX 吗?
    nayenizhenmei
        25
    nayenizhenmei  
       32 天前 via iPhone
    @jiayouzl 我硕士就是搞 cv ,用 yolo 的,一般来说,工程上用 v5v8v11 ,主要是其后面的 u 公司对 yolo 的工程化比较好,也不是说其他的系列不好,对于检测精度来说肯定是越来越高速度也越来越快,但工程化角度看集成度没那么好
    rrubick
        26
    rrubick  
       32 天前
    我想做一个截图记账的功能,这个应该可以用吧?
    lxxiil
        27
    lxxiil  
       32 天前 via iPhone
    现在写游戏脚本 yolo ,opencv ,寻路算法,这些都是是必备技能
    hwdq0012
        28
    hwdq0012  
       32 天前
    @srsman #20 同
    hwdq0012
        29
    hwdq0012  
       32 天前
    去年做了个工具训练 https://github.com/nocanstillbb/label-image

    给公司做的更强大,加了一些网络设备的功能,标注多了缩放功能,还有一个 vncviewer 嵌入,从采集到模型部署 一个软件全包了
    neroxps
        30
    neroxps  
       32 天前 via iPhone
    我们产品期望用 yolo 做自助餐菜品自动识别
    iOCZS
        31
    iOCZS  
       32 天前
    @Jakarta 大模型是大规模预训练模型,大语言模型是大规模预训练模型的一种特定类型。
    jiayouzl
        32
    jiayouzl  
    OP
       32 天前
    @neroxps 我实战前看了不少文章,其中就有对自助餐盘里菜品识别的文章,搭配好点的摄像头完全没问题的。
    565656
        33
    565656  
       32 天前
    @jackenliu #6 openai 还真做不了检测, 细分场景不如
    someonesnone
        34
    someonesnone  
       32 天前
    超市自动识别物品称重那称, 都足够好玩
    BruceWooong
        35
    BruceWooong  
       32 天前
    啊啊啊! YOLO 都已经玩透了,发论文都会遭到嫌弃。难道在工业界还没有普及吗?何止 v8 ,现在 v13 ( https://arxiv.org/pdf/2506.17733 )都有了,而且还有 DETR ( https://arxiv.org/abs/2005.12872 )这种基于 Transformer 的模型更加厉害,第一版是 2020 年出的。你提到的 yolo 第一版是 2015 年提出来的( https://arxiv.org/abs/1506.02640 ),到现在已经 10 年过去了。
    roundgis
        36
    roundgis  
       32 天前 via Android
    @BruceWooong 我公司也是最近才始用

    安排我研究怎用在提高生管理上

    可一技要推 且得到泛使用

    有漫的程
    visper
        37
    visper  
       31 天前
    yolo 是一个极出色的模型,有兴趣的人都可以去试一下,以后能用到的地方就可以考虑用上。模型小,速度快,标注训练简单。转 onnx 在 java 之类里面跑也很方便。
    2en
        38
    2en  
       31 天前
    @Belmode #15 说难听点,你这种是作弊,是挂
    2en
        39
    2en  
       31 天前
    当年还用 yolo v5 做过自瞄,效果好而且封不掉
    gsw945
        40
    gsw945  
       30 天前 via iPhone   1
    之前用 YOLOv5 做过发票识别,200 张图片微调训练的模型,准确率能稳在 95%以上,同发票图的准确率超过 PaddleOCR 官方 demo 。
    背景说明: 有纸质发票的扫描件,需要数字化归档,识别出内容,PaddleOCR 识别出来的是很多个识别块,发票是历史发票,表格线很多缺失,也有部分扫描缺角,大部分扫描件都有倾斜,ocr 识别后,将块内容对应到字段很困难,穷尽表格识别各种算法后效果仍不好。后改变思路,参考猫狗识别的例子,以发票固定文字(字段)作为为标注分类,比如"纳税人识别号"等,标注后训练大概 2 小时不到,推理时先 YOLO 识别出各个字段的坐标范围,ocr 识别后,识别块的坐标经过比对,很容易就能对应到字段了。
    AlexRoot
        41
    AlexRoot  
       30 天前
    @neroxps 大米好像已经有了,我感觉用 YOLO 完全可以实现。
    wingor2015
        42
    wingor2015  
       30 天前
    @owen800q 识别车牌这种,估计都不需要自己训练,网上应该能找到现有的模型
    cz5424
        43
    cz5424  
       30 天前 via iPhone
    刚接触,有什么好用的标注平台可以推荐吗,需要得到物体的四个角位置,不是识别
    lingxipaofan
        44
    lingxipaofan  
       29 天前
    目前项目就是转 onnx 在 unity 里面做骨骼识别
    layxy
        45
    layxy  
       29 天前
    @ptstone YOLO 目前的大部分使用场景就是干你说的这个的,还有生产中的质检也会用
    poorcai
        46
    poorcai  
       29 天前
    楼上说的识别车牌这种需求,以前研究 opencv 时就有很多开源的成熟的项目了!另外想问下,Yolo 和 OpenCV 的区别?
    ioioj5
        47
    ioioj5  
       29 天前
    刚接触
    capric
        48
    capric  
       29 天前
    @poorcai yolo 是训练模型然后部署到目标机器上推理(目标识别,追踪),opencv 是纯手撮用一些数学的方法(比如灰度化、二值化、边界变化)来做目标分割等
    axunzzzz
        49
    axunzzzz  
       29 天前
    @lxxiil 老哥,寻路算法这块有啥关键词吗,最近在写一个 ARPG 游戏脚本就差寻路这块不知道怎么实现了
    gsw945
        50
    gsw945  
       29 天前 via iPhone
    @cz5424 不确定你想要的是否是 LabelImg 或 LabelMe 这种标注工具
    gsw945
        51
    gsw945  
       29 天前 via iPhone
    @axunzzzz 寻路算法讲的最好的: https://www.redblobgames.com/pathfinding/a-star/introduction.html ,除了 A 星(A*),还有跳点搜索(JPS)也很常用,不过如果你的游戏是 3D 的,也可以搜索"Recast Navigation"
    evilcat
        52
    evilcat  
       28 天前
    @axunzzzz 佬在写作弊器么,还是游戏自动托管
    axunzzzz
        53
    axunzzzz  
       28 天前
    @gsw945 #51 感谢
    @evilcat #52 算不上佬,刷子游戏想弄个全自动脚本看看效果
    okampfer
        54
    okampfer  
       12 天前
    @lingxipaofan #44
    ONNX runtime 不是 C++的么?是怎么用到 C#写的 unity 项目里面的?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1069 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 17:48 PVG 01:48 LAX 10:48 JFK 13:48
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86