目前最好的开源手写体 ocr 识别是什么 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
hmxxmh

目前最好的开源手写体 ocr 识别是什么

  •  
  •   hmxxmh May 8, 2025 4115 views
    This topic created in 359 days ago, the information mentioned may be changed or developed.
    • 1 、百度 ppocr
    • 2 、阿里读光 ocr
    • 3 、。。。
    Supplement 1    May 8, 2025

    多模态大模型有考虑过,但是成本太高了,而且速度慢
    成本上单卡t4(16g) ,ocr小模型可以支持8个并发
    大模型可能智能部署小参数量化版本,效果还不行,换大参数成本更高

    22 replies    2025-05-12 11:14:43 +08:00
    daodao
        1
    daodao &nsp;
       May 8, 2025
    PaddleOCR
    Suonna
        2
    Suonna  
       May 8, 2025
    汉王可以了解一下,目前遇到过最强的手写 OCR ,软件还良心

    其次就是直接用 gemini 做 ocr
    zzfer
        3
    zzfer  
       May 8, 2025
    对过几家 SDK ,百度和微软的表现还不错
    realJamespond
        4
    realJamespond  
       May 8, 2025
    最新的 gemeni2.5 pro 变态强, 国内就是 internvl3 14b 非常强
    ma46
        5
    ma46  
       May 8, 2025
    @Suonna 普通 ocr 用大模型非常不划算
    Suonna
        6
    Suonna  
       May 8, 2025
    @ma46 请教是哪方面不划算?
    clf
        7
    clf  
       May 8, 2025
    @Suonna #6 应该指 token 消耗吧,得最好把图片先降低分辨率,不然 token 烧的有点多。
    luchenwei9266
        8
    luchenwei9266  
       May 8, 2025
    之前简单对比过:百度、腾讯、讯飞、阿里、有道。百度的效果会稍微好一点。
    lee88688
        9
    lee88688  
       May 8, 2025
    #4 说的 internvl3 14b 我也看过一些测评确实可以,但不知道具体场景情况,op 可以去试试。
    kuonkuon
        10
    kuonkuon  
       May 8, 2025
    做过测试,手写这东西,只有大模型识别率最高,但是也只有 70 几。测试数据是初中生的数学考试手写笔记
    hmxxmh
        11
    hmxxmh  
    OP
       May 8, 2025
    @Suonna 大模型太慢了,我们的业务场景要求响应速度,而且大模型成本高,1 张 t4 卡,小模型可支持 8 并发差不多,换大模型只能部署小参数的,大参数的至少 4 张卡,并发数还少
    hmxxmh
        12
    hmxxmh  
    OP
       May 8, 2025
    @kuonkuon 用的是哪家大模型
    yoghurtguy
        13
    yoghurtguy  
       May 8, 2025
    @kuonkuon 请问"初中生的数学考试手写笔记"是随便找了一张图片还是有相关的数据集吗? 我现在刚好希望使用开源大模型识别手写数学公式
    xiaomushen
        14
    xiaomushen  
       May 8, 2025
    PaddleOCR 或 RapidOCR
    其实是一个东东
    hmxxmh
        15
    hmxxmh  
    OP
       May 8, 2025
    @Suonna 这个我体验了一下,确实很准,不过是根据手写轨迹来识别的好像,如果输入是图片不行
    hmxxmh
        16
    hmxxmh  
    OP
       May 8, 2025
    @xiaomushen 这个我用来表格识别了,属于是开源最好的表格识别
    Suonna
        17
    Suonna  
       May 9, 2025
    @hmxxmh 您可以自己部署 gemini 号池
    owen800q
        18
    owen800q  
       May 9, 2025 via iPhone
    微信
    Yux0
        19
    Yux0  
       May 9, 2025
    @yoghurtguy HME100k
    kuonkuon
        20
    kuonkuon  
       May 9, 2025
    @hmxxmh #12
    @yoghurtguy
    那时候用的 gpt4o ,现在 4.1 出来了,最主要是学生不会给你规规矩矩写,大量存在歧义的符号,大模型好处是会联系上下文。 不是开源数据集,是我这儿学校扫描的答题卡,我自己整理的测试图
    yoghurtguy
        21
    yoghurtguy  
       May 10, 2025 via iPhone
    @Yux0 感谢,还是中国的
    @kuonkuon 感谢,API 太贵了用不起,想用开源的自己部署
    Yux0
        22
    Yux0  
       May 12, 2025
    @yoghurtguy #21 可以一起交流,目前我也在弄识别数学公式的项目: https://github.com/yux-lab/TeXnically
    About     Help     Advertise     Blog     API     FAQ     Solana     2476 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 71ms UTC 07:57 PVG 15:57 LAX 00:57 JFK 03:57
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86