ocr 识别 latex 公式的难度是在哪? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zxCoder
V2EX    问与答

ocr 识别 latex 公式的难度是在哪?

  •  
  •   zxCoder 2022-04-02 20:27:50 +08:00 2507 次点击
    这是一个创建于 1292 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我记得有款工具叫 math 什么,可以识别 latex 公式,挺好用的,现在好像收费了,免费客户端好像是一个月 50 次。

    这个其实对于普通用户偶尔用一两次也是够了。

    不过我的问题是,这种 ocr 功能的难度,或者说资源花费主要是在哪?感觉现在 AI 技术也发展得不错,再加上 latex 公式一般都是比较标准的字体,符号也有限,而且有很多人用,就有很多的训练集,感觉模型应该不是问题。
    7 条回复    2022-04-03 22:03:27 +08:00
    handuo
        1
    handuo  
       2022-04-02 23:21:37 +08:00 via Android
    我不是做这方面的,但是知道整个过程不只是 ocr, 需要预处理,文本检测,布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性,很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测,不同噪声下的字符识别,因此需要自己设计网络,采集数据和训练模型,有一定门槛
    PeterD
        2
    PeterD  
       2022-04-02 23:29:20 +08:00   2
    现在用 Transformer 已经可以实现很好的效果了,参考下面的项目

    https://github.com/lukas-blecher/LaTeX-OCR

    https://arxiv.org/abs/2007.02517
    ynyounuo
        3
    ynyounuo  
       2022-04-03 02:08:18 +08:00 via iPhone
    mathpix 刚涨价并且限制普通用户使用次数,我怀疑你是故意这个时候发的,哈哈哈

    普通 LaTeX 数学公式 OCR 确实并不难,如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害,目前 quiver 画图手动画图转换体验还行
    thedrwu
        4
    thedrwu  
       2022-04-03 04:19:45 +08:00 via Android
    排版和布局(例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等)才是 LaTeX 公式的灵魂。即使同一个公式内容,换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。
    生硬地 reproduce 布局最后只会成为各种手动的 box 。
    thedrwu
        5
    thedrwu  
       2022-04-03 04:25:41 +08:00 via Android
    接上文,OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义,才能给出合理的等价排版代码
    (adsbygoogle = window.adsbygoogle || []).push({});
    shadows
        6
    shadows  
       2022-04-03 11:48:11 +08:00
    mathpix 可以找一些调用它 api 的软件使用,api 的免费计划足够使用的,不处理 pdf 的话,就只有 rate limit (新开的 api 是 50/min ,我之前开的是 200/min ),没有次数限制
    shadows
        7
    shadows  
       2022-04-03 22:03:27 +08:00
    补充#7 是每月前 1K 次请求免费
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5922 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 160ms UTC 02:00 PVG 10:00 LAX 19:00 JFK 22:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86