This topic created in 1507 days ago, the information mentioned may be changed or developed.
我记得有款工具叫 math 什么,可以识别 latex 公式,挺好用的,现在好像收费了,免费客户端好像是一个月 50 次。
这个其实对于普通用户偶尔用一两次也是够了。
不过我的问题是,这种 ocr 功能的难度,或者说资源花费主要是在哪?感觉现在 AI 技术也发展得不错,再加上 latex 公式一般都是比较标准的字体,符号也有限,而且有很多人用,就有很多的训练集,感觉模型应该不是问题。
7 replies 2022-04-03 22:03:27 +08:00  | | 1 handuo Apr 2, 2022 via Android 我不是做这方面的,但是知道整个过程不只是 ocr, 需要预处理,文本检测,布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性,很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测,不同噪声下的字符识别,因此需要自己设计网络,采集数据和训练模型,有一定门槛 |
 | | 3 ynyounuo Apr 3, 2022 via iPhone mathpix 刚涨价并且限制普通用户使用次数,我怀疑你是故意这个时候发的,哈哈哈
普通 LaTeX 数学公式 OCR 确实并不难,如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害,目前 quiver 画图手动画图转换体验还行 |
 | | 4 thedrwu Apr 3, 2022 via Android 排版和布局(例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等)才是 LaTeX 公式的灵魂。即使同一个公式内容,换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。 生硬地 reproduce 布局最后只会成为各种手动的 box 。 |
 | | 5 thedrwu Apr 3, 2022 via Android 接上文,OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义,才能给出合理的等价排版代码 |
 | | 6 shadows Apr 3, 2022 mathpix 可以找一些调用它 api 的软件使用,api 的免费计划足够使用的,不处理 pdf 的话,就只有 rate limit (新开的 api 是 50/min ,我之前开的是 200/min ),没有次数限制 |
 | | 7 shadows Apr 3, 2022 补充#7 是每月前 1K 次请求免费 |