Dify 的 LLM 节点中视觉参数只能选择开始的文件吗。如果是 PDF 格式的,如何进行视觉识别呢,我测试直接传入文件没法获取正常结果。如果是每页 PDF 转成图片。那 LLM 如何进行选择转图片后的参数,我试了直接在提示词里面输入图片转的 base64 也不行

1 mrbananaeros Aug 23, 2025 不是,开始节点中的参数也是可以的。 PDF 目前不支持 OCR ,所以纯图片的 PDF 会读出来是空的。可以用别的插件,minerU 试试 |
2 Sh1xin OP @mrbananaeros 感谢,另外还有个问题想请教下:如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取 |
3 mrbananaeros Aug 25, 2025 @Sh1xin 因为代码节点生成的格式不是 File 格式的,我建议你写一个插件去处理图片,因为插件是可以返回 File 类型的。 |