想请教一下各位,这个 Demo 展示的文档理解的功能是怎么实现的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SuperMaskv
V2EX    机器学习

想请教一下各位,这个 Demo 展示的文档理解的功能是怎么实现的?

  •  
  •   SuperMaskv 2024-01-08 12:00:35 +08:00 1255 次点击
    这是一个创建于 91 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Demo

    https://mp.weixin.qq.com/s/fZLibqedhrAUOpdyl0c4Ow

    Demo 流程

    这个 Demo 演示的大致处理流程是这样的:

    1. 先上传一份 demo 文件
    2. 完成一次框选,著录操作
    3. 上传一堆文件进行模型训练
    4. 后续上传的文件就可以自动著录了

    疑问

    1. 对于这种固定版式的文档,是不是固定的文本框 bbox+OCR 就可以完成这样效果,为什么要加入机器学习的步骤呢?
    2. 如果机器学习的步骤可以帮助定位关键信息的位置,这个是用什么算法实现的?
    3. 为什么只标注一份就可以进行机器学习,有什么数据增广之类的技巧吗?

    非常感谢大家能点进来看,有想法可以指导我一下就更好了

    4 条回复    2024-01-09 09:32:24 +08:00
    dier
        1
    dier  
       2024-01-08 14:57:55 +08:00
    我把视频看了一遍,我发现你理解的流程其实跟视频中有偏差。
    你理解的流程第三步是上传了多个文件进行训练,但我看视频中并没有上传多个文件用来进行训练。
    我甚至都怀疑语音讲解中提到的所谓“自动训练”只不过是他们的话术。可能这个加载的过程只是后台在基于前面框选的位置自动生成 OCR 识别后的处理脚本或程序。
    因为文件内容格式基本一致,所以第一份标识完成之后,后面所有的文件都可以套用前面“自动训练”的程序来识别。

    以上我的看法都是我根据视频内容推断的。不对准确性做保证
    SuperMaskv
        2
    SuperMaskv  
    OP
       2024-01-08 19:10:21 +08:00
    @dier #1 非常感谢你看完了这个视频。
    我为什么说有训练的过程是因为这些文档大多是扫描出来的,数据质量受到扫描的影响,可能会有旋转,偏移之类的问题。我查了一些资料,是不是可以用目标检测来定位,训练数据的话从用户标注的这一份通过平移旋转来增广,不知道这样可不可行。
    dier
        3
    dier  
       2024-01-09 09:10:01 +08:00
    @SuperMaskv 我不是 OCR 识别方面的技术人员,但我用过这种产品,之前用阿里云的车辆 VIN 码识别 OCR 时,我就发现照片中的内容不论是平、竖、斜。都可以识别,只要图片篇幅不是大得离谱,它也能在较大范围的图片中成功识别出其中的 VIN 码。所以这种识别算法肯定对选取的范围也会做一定的调整,用于适应扫描过程中纸张位置不固定导致的偏移。就像人在框选时一样,不会精确到字符的边缘,而是会尽量框大一点。
    SuperMaskv
        4
    SuperMaskv  
    OP
       2024-01-09 09:32:24 +08:00
    @dier #3 铭牌这一类的会有一些图像的预处理来定位,比如膨胀拉伸定位边框,我现在的场景不只是表格而已,这些方法不太适用。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2742 人在线   最高记录 6679       Select Language
    创意工作者的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 07:24 PVG 15:24 LAX 23:24 JFK 02:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86