最近被 OCR 识别搞得头痛 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ltfree
V2EX    程序员

最近被 OCR 识别搞得头痛

  •  
  •   ltfree 221 天前 7701 次点击
    这是一个创建于 221 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近项目需要识别功能,对接了第三方 OCR 公司 但出现问题频率太高了,windows 正常识别,部署到服务器就失败,环境换了又换(都是对方指定版本) 我看用的是一些 opencv 的包,也不懂很无奈

    有擅长的朋友给些意见么

    49 条回复    2025-04-24 20:54:55 +08:00
    ala2008
        1
    ala2008  
       221 天前
    之前不是有人开源弄了个微信 ocr 吗,感觉挺强的
    lanweizhujiao
        2
    lanweizhujiao  
       221 天前
    那个我有 你敢使用吗?
    ltfree
        3
    ltfree  
    OP
       221 天前
    @ala2008 我们这需要在内网运行的
    datocp
        4
    datocp  
       221 天前   1
    之前的 px940 采集二维码,不知道算不算 ocr 。平时习惯 sysprep 生成 update 过的系统。
    最后才发现只能装 ltsc2021 最原始的发行版本,不在线更新补丁,一些识别异常的问题就解决了。通常供应商指定的系统应该能解决吧,难道是显卡驱动部分嘛。显卡在 win10 以上的系统主要是截取的画面位置变化。软件快捷方式有 更改高 DPI 设置/替代高 DPI 缩放行为/应用程序。
    reeco
        5
    reeco  
       221 天前
    部署个 paddleocr 解决
    pulutom40
        6
    pulutom40  
       221 天前 via iPhone
    @ltfree 那个微信 ocr 是把微信的模型提出来运行,不是运行一个微信
    katwalk
        7
    katwalk  
       221 天前 via Android
    @ala2008 那个微信 ocr 项目叫什么,想用一下
    gxt92
        8
    gxt92  
       221 天前   2
    @katwalk t/1120897
    原 OP 好像删库了, 找 fork 了的人
    miyuki
        9
    miyuki  
       221 天前   1
    @ltfree 那个应该是把模型文件扒出来了
    LiuJiang
        10
    LiuJiang  
       221 天前   1
    试试 openAI 最新的 o3 模型识别?
    ltfree
        11
    ltfree  
    OP
       221 天前
    @LiuJiang 好的 我去看看
    Rat3
        12
    Rat3  
       221 天前   2
    @LiuJiang

    这俩的应用层都不一样把,OCR 的场景和 O3 的推理场景不是完全重合的把,OCR 仅仅是 O3 推理流程的一环,为了一个 ORC 去用 O3 这不完全本末倒置了吗?
    MartinYANG06
        13
    MartinYANG06  
       221 天前
    用 docker 配好容器直接拉过去呗
    villivateur
        14
    villivateur  
    221 天前
    我用 ollama 自己部署的 gemma3 ,用来做 OCR 效率挺高的
    mumbler
        15
    mumbler  
       221 天前
    OCR 开源项目就那几个,你们用的是哪个
    Alexf4
        16
    Alexf4  
       221 天前
    AI 可以试试 gemini/o3
    专精的就试试 PaddleOCR
    BadMan
        17
    BadMan  
       221 天前
    如果你们有 gpu 机器,直接到 huggingface 上按排行榜下载一个 ocr 模型或者多模态大模型部署,效果很好的
    Patrick6
        18
    Patrick6  
       221 天前   1
    nananqujava
        19
    nananqujava  
       221 天前
    微信那个 OCR 提取我用了, 自己部署后效果不好, 听说和系统, CPU 型号有关
    NoOneNoBody
        20
    NoOneNoBody  
       221 天前   1
    识别率如何是技术问题,但部署成功失败,就是管理问题了,不能只听外包的
    opencv 本身不带 ocr ,它只是读图,以及方便定位(图片上的位置)、变换,它只是依赖的部分

    目前国内用得广泛的就是 paddleocr ,这货最大问题是依赖问题,例如 numpy 2 、多环境部署都有问题
    例如 opencv 版本比较新,opencv 依赖的 numpy 也新,那依赖较旧 numpy 版本的 paddleocr 就会冲突
    我建议你就是找那些单独打包的,不太需要另装依赖的(如 docker ),以 api 方式跑,部署会比较简单

    如果外包公司提供的在 windows 跑得比较顺,盲猜跟微信 ocr 有关

    如果是对物理静态文件的 ocr ,一般都不太多问题,按上述方法做就可以了,github 上搜 umi ocr ,很多项目
    如果是针对 stream ,例如网络传送、视频流、摄像头采集,没有物理文件的,这个才复杂些
    1daydayde
        21
    1daydayde  
       221 天前   1
    ddddocr
    JxQg597
        22
    JxQg597  
       221 天前
    Tesseract OCR
    PaddleOCR 模型,支持调参,Python 调用。
    Umi-OCR 支持 Docker 部署和 RestfulAPI ,本地模型用的 PaddleOCR https://github.com/hiroi-sora/Umi-OCR
    243205964
        23
    243205964  
       221 天前
    connectsixboy
        24
    connectsixboy  
       221 天前
    失败原因是什么呢?看看报错日志
    nicoljiang
        25
    nicoljiang  
    PRO
       221 天前
    你们对接的哪家?
    chaodada
        26
    chaodada  
       221 天前
    @nananqujava 我在阿里云的 ecs 部署效果特别差 本地部署效果就不错
    lmengmeng
        27
    lmengmeng  
       221 天前
    @villivateur 我有个同事做类似需求也是这样试了下,本地小模型效果好像就挺不错了
    mx2dream
        28
    mx2dream  
       221 天前
    Docling 也用过,可以完全在本地部署,支持 API 调用
    soapX
        29
    soap0X  
       221 天前 via Android
    调用接口不用考虑问题。linux 下 opencv 需要编译对版本的。还有个问题是否用了扩展模块。ocr 感觉还是需要对接模型。oc 你理解为一个不是项目语言的一个 lib 库就行了。
    bigtan
        30
    bigtan  
       221 天前   1
    nananqujava
        31
    nananqujava  
       221 天前
    @chaodada #26 我也觉得很奇怪, 不知道问题出在哪, 这种黑盒
    Damn
        32
    Damn  
       220 天前 via iPhone
    @0312birdzhang 这个效果很不好,之前手搓公司 VPN 登录器,连预知验证码是两位数字加减(没有乘除)都识别不好。最后还是手工输入的。
    lyhapple
        33
    lyhapple  
       220 天前
    我有一个可以私有化部署的 OCR 服务,用 python 、flask 开发的,有 API 接口, 也可以打包成 docker 镜像,怎么联系楼主?
    xiaomushen
        34
    xiaomushen  
       220 天前
    PaddleOCR, RapidOCR,私有化部署很简单,CPU 推理也很快
    hmxxmh
        35
    hmxxmh  
       220 天前 via Android
    ppocr 读光 ocr 对印刷体都挺好的,手写体不行,v 友门有好用的手写 ocr 吗
    kkss198x
        36
    kkss198x  
       220 天前
    mistral 的 ocr 我自己在用 感觉中文识别有点弱
    pike0002
        37
    pike0002  
       219 天前
    Google, Azure 和 Mistral 都有 AI 加持的 OCR 服务。体验下来 Google 和 Azure 的靠谱一些,对于中文表现也还可以。

    或者也可以看看 https://ocr.space/,CopyFish 似乎就是用的这个。
    roygong
        38
    roygong  
       219 天前 via iPhone
    直接用微软的 Azure Document Intelligence ,开源项目 OpenWebUI 就对接了这个
    kekeabab
        39
    kekeabab  
       219 天前
    不是,windows 和 macOS ,iOS ,都有自带的 OCR ,调一下不就好了。苹果自带那个支持巨多语言,我以前还参与过一个项目还是用 iPhone 做集群 OCR 服务卖的。
    liuzhedash
        40
    liuzhedash  
       218 天前
    可以用 Tesseract OCR
    效果马马虎虎但是也够用
    zgjldxdyt1
        41
    zgjldxdyt1  
       218 天前
    豆包的最新视觉模型,1.5 vision pro ,识别文字效果不错,价格也还可以。
    unco020511
        42
    unco020511  
       218 天前
    啊现在不都是直接用大模型了吗,4o 的 ocr 已经不错了
    vvrfxyz
        43
    vvrfxyz  
       217 天前   1
    纯内网有卡的话就 mineru ,要不就接 qwen VL 模型,这俩效果都可以
    PopRain
        44
    PopRain  
       217 天前   1
    OCR 这个话题太大了,楼主应该给一些更明确的需求,一般印刷体识别,现在很多开源库都做的不错了。但是你要做版面分析、表格分析,好像付费的也不怎么样,要做到 100%正确,也应该没有
    beta4better
        45
    beta4better  
       217 天前
    easyOCR 我用过识别文字还不错,即使是背景很复杂的画面。
    8355
        46
    8355  
       217 天前
    百度的 paddleocr 好用的不得了。。。
    beginor
        47
    beginor  
       217 天前 via Android   1
    qwen 2.5 vl 32b awq ,ocr 效果相当不错!
    ltfree
        48
    ltfree  
    OP
       215 天前
    @mumbler 找第三方写的 我看用了很多 libopencv 的依赖,太详细的就不懂了
    ltfree
        49
    ltfree  
    OP
       215 天前
    @NoOneNoBody 感谢,我去研究一下,目前使用 docker 构建了 Ubuntu22.04 版本,90%可以识别,但剩下的还是和直接部署在 Ubuntu 服务器中的有差异,暂时找不到原因了
    目前就是 windows 和原生 Ubuntu22.04 版本服务器中识别比较稳定
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4321 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 01:01 PVG 09:01 LAX 17:01 JFK 20:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86