MinerU 到底是模型还是工程产品 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ZimaBlueee
V2EX    程序员

MinerU 到底是模型还是工程产品

  •  
  •   ZimaBlueee 53 天前 1756 次点击
    这是一个创建于 53 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我看博客说 MinerU 是基于百度的 paddleocr 0.9b 的工程产品,

    但是官方对其描述看起来却很像是自己训练或者微调出来的独立大模型:

    “MinerU 在线产品已全面集成 MinerU2.5 文档解析大模型”

    有了解的人出来给小弟解惑吗,官方文档也看了,没看到相关解释

    10 条回复    2025-11-06 12:58:16 +08:00
    w568w
        1
    w568w  
       52 天前
    > 我看博客说 MinerU 是基于百度的 paddleocr 0.9b 的工程产品

    你看的是什么博客? MinerU 和 PaddleOCR 没有半毛钱关系,像是 LLM 写出幻觉了。
    miracleyin
        2
    miracleyin  
       52 天前   1
    MinerU 分为两个 backend
    一个是 pipeline ,集成了多种文档相关的模型,并基于后处理合并完成文档解析;
    另一个是 vlm backend ,目前 2.5 版本是一个 qwen 架构 1.2B 的 vlm 模型,这个模型分为两阶段,一阶段是对版面进行分析,获取区域、区域类别、区域顺序,二阶段是对区域进行解析,提取文本、表格、公式,最后后处理合并。
    他们的输入输出是一致的(功能一致),但使用的技术不同,效果和性能也有差异,需要根据自己场景按需选择。

    paddleocr 在 MinerU pipeline backend 被集成(完成 ocr ),但 vlm 后端两者完全没有关联
    ZimaBlueee
        3
    ZimaBlueee  
    OP
       52 天前
    @w568w 数字生命卡兹克的公众号,他在评论区里跟别人这样说的。并且这种说法在很多群里也能看到,但是又找不到出处,就很蒙。所以 mineru 是独立训练出来的模型吗?
    coefu
        4
    coefu  
       52 天前
    有他们自己的模型,外加一部分工程能力,组合而成的 rag workflow 工具,类似 ragflow 这种 rag 工程实现中 对 PDF 做解析的一环工具。
    coefu
        5
    coefu  
       52 天前
    @ZimaBlueee 少看点这种二道知识贩子的东西,有问题自己去官网/github 看官网文档,再不懂结合 chatgpt ,都比这种二道知识贩子靠谱。
    w568w
        6
    w568w  
       52 天前
    @ZimaBlueee #3 楼下的说法是正确的,MinerU 作为 pipeline 「可以」接入 PaddleOCR 模型,但不能说 MinerU 「基于」 PaddleOCR 。另外 MinerU 作为视觉语言模型时也是他们自己训练的模型称呼。
    RotkPPP
        7
    RotkPPP  
       52 天前
    @w568w 不是做这方面的,就点击进去看看仓库,人家都致谢 paddleocr 了,而且搜一下代码,pipline 和 backend 很多使用 paddleocr 的包,所以也不能完全说没关系吧。

    再搜了一下谷歌,"MinerU 使用 PaddleOCR 进行文字识别。".https://www.53ai.com/news/OpenSourceLLM/2025040908693.html
    ZimaBlueee
        8
    ZimaBlueee  
    OP
       52 天前
    @miracleyin 感谢老哥,明朗了,怪不得两种说法都有。
    w568w
        9
    w568w  
       52 天前
    @RotkPPP

    > 人家都致谢 paddleocr 了

    先澄清定义后讨论:

    1. 「基于」的意思是「底层完全依赖某个特定包,或者在特定包的基础上进行包装」

    2. 「 paddleocr 」是百度开发的工程框架和模型两者的「统称」,OP 的问题是「是否基于 PaddleOCR 模型」,即特指模型部分

    > pipline 和 backend 很多使用 paddleocr 的包

    MinerU 可以使用 PaddleOCR 模型,当然会依赖那些包。另外虽然我没有具体读过代码,但如果 MinerU 使用了 PaddleOCR 的工程函数来做图像处理,也是合理的。但不能说「 MinerU 基于百度的 paddleocr 0.9b 模型」。

    > 再搜了一下谷歌,"MinerU 使用 PaddleOCR 进行文字识别。"

    所以说不要再看 AI 反刍的二道贩子知识了啊……
    Muniesa
        10
    Muniesa  
       52 天前
    @RotkPPP 首先,paddleocr 是很多年的 OCR 项目,包含了很多非 transformer 架构的模型,paddleocr 0.9B 仅仅是 paddleocr 项目里最新的一个模型。其次,mineru 的出现比 paddleocr 0.9B 早。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5728 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 02:34 PVG 10:34 LAX 18:34 JFK 21:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86