如何从 ocr 识别后的碎片化信息中提取出有效信息,如姓名手机号身份证车牌这种信息。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KOMA1NIUJUNSHENG
V2EX    问与答

如何从 ocr 识别后的碎片化信息中提取出有效信息,如姓名手机号身份证车牌这种信息。

  •  
  •   KOMA1NIUJUNSHENG 2024-03-15 10:27:27 +08:00 1622 次点击
    这是一个创建于 580 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前没有成本和时间搭建一个大模型,能想到的就是比较原始的正则匹配方式。
    但是弊端比较多,只能精确匹配,多一个字少一个字都拿不到,或者带*号的,有时候 ocr 出来的也会缺东西多东西。导致肉眼能看到的很多信息正则都匹配不到。
    大佬们有什么比较好的方案或者类似工具库吗,可以比较人性化一点的匹配到有效信息,比如多个数字少个数字或者看着比较像人名的都可以匹配到。
    8 条回复    2024-03-15 15:21:50 +08:00
    xylitolLin
        1
    xylitolLin  
       2024-03-15 10:33:50 +08:00
    先用 yolo 处理一下图片,把目标区域切下来之后,再进行 OCR ,这样可以提高 OCR 的准确性
    lidapang
        2
    lidapang  
       2024-03-15 10:44:56 +08:00   2
    KOMA1NIUJUNSHENG
        3
    KOMA1NIUJUNSHENG  
    OP
       2024-03-15 10:58:57 +08:00
    @lidapang 可以啊老哥,这个识别出来的比百度高精度 ocr 还好一点。
    KOMA1NIUJUNSHENG
        4
    KOMA1NIUJUNSHENG  
    OP
       2024-03-15 11:04:58 +08:00
    @lidapang 但是错别字有点多,文字的识别准确度有待改善。
    lidapang
        5
    lidapang  
       2024-03-15 11:07:42 +08:00
    你根据文档上面的参数调整下,错别字多的原因可能识别的时候那个临界点没有设置合适,前提不对图片做处理的情况下
    SuperMaskv
        6
    SuperMaskv  
       2024-03-15 11:29:04 +08:00
    如果是证件,表格这种类型的可以看一下微软的 layoutlm 系列,有中文的预训练模型
    https://github.com/microsoft/unilm/tree/master/layoutlmv3
    xmuli
        7
    xmuli  
       2024-03-15 12:28:35 +08:00 via iPhone
    如百度 ocr 接口也有专门针对车牌,发票等具体的,识别率很高。
    KOMA1NIUJUNSHENG
        8
    KOMA1NIUJUNSHENG  
    OP
       2024-03-15 15:21:50 +08:00
    @lidapang #5 可以,我试一下。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     895 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 20:12 PVG 04:12 LAX 13:12 JFK 16:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86