V2EX Sh1xin 的所有回复 第 1 页 / 共 2 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    Sh1xin    全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
我的经验是直接用 LLM 。OCR 这步省掉,不然有些 OCR 识别出来以后结构有变化,反而会误导 LLM
我现在也是这个状态了,原领导调走,没指派新领导。组内另外一个人统管,要疯掉了
@mx2dream 资料是客户提供的所需生产信息。涉及到生产数量,价格等内容,很重要。但是小客户太多了,提供的内容格式五花八门,并且也没有资格去约束客户强制统一模板。当前就是人工获取 PDF 等信息,手动复制出来,确认开单。但是这样又会导致校验的人员在一些场景下给客户额外承诺,另外开单,导致库存累加,占用
@mx2dream 先使用传统 OCR ,再用 VLM 进行输出结果的方案。之前试过效果不好,因为部分场景下 OCR 识别结果模糊,或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案,不知道这是否是行业通用解决方案,有关联资料可以参考嘛?

目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。

当前正在测试机上测试,感谢提供指导
@wangmn 公司买的,10W
@bluryar 现有需求场景就是三个①知识库②智能客服问答③OCR
@cbythe434 别闹哥,公司干活用的
@bluryar 其他的目前只有用到一个向量模型,其他暂时没需求,一般小模型的企业内部有啥需求场景嘛,我们目前还没找到,所以没有这方面的考虑
@bluryar 是的,也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果,而且看官方是建议 8×80GB 。现有硬件性能不足
PaddleOCR-VL 才 0.9B.怎么跟 Qwen3-vl 比...
你用的是 Qwen3-vl-32B 版本吗,我这边想私有化部署。不知道私有化的识别效果怎么样,2.5-vl-32B 的还有一些场景效果不好
@SuperDaniel313 这不就是传统 RPA 的业务场景
@loloX 我是做业务流程自动化,不是测试自动化。比如现在有一个业务需求是登录系统 A ,然后点击菜单栏"信息录入",然后在出现的表格上面把 excel 信息录入进去。
@duuu 目前最火的 n8n 和 dify 。一个是老牌的 workflow 工具,一个可以实现多 LLM 方便对接。如果 OPENAI 只允许使用自家的 LLM,那应该不容易获取用户吧,如果也选择开放 LLM ,又会影响自家的营收。刚刚试用了一下 Agent builder ,感觉还好简陋的状态
92 天前
回复了 Sh1xin 创建的主题 程序员 Dify LLM 视觉参数问题请教
@mrbananaeros 感谢,另外还有个问题想请教下:如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取
124 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@tool2dx 你那边漏字的场景方便详细说下嘛;我试了 5 页 PDF 包含表格和多行文本,可以正常提取表格内容
124 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@youyouzi ollama 。但是我不知道具体细节,运维帮我在弄
124 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
感谢各位指导,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中
124 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧,我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取
124 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@apkapb https://github.com/PaddlePaddle/PaddleOCR/discussions/16114
PaddleOCR 感觉已经很好了,可惜差一点点
124 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@bigtear 私有化部署的多模态大模型直接识别图片效果不好,信息安全角度没法使用 api 调用市面上先进方案
1  2  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3453 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 21ms UTC 00:18 PVG 08:18 LAX 16:18 JFK 19:18
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86