
问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。
1 tool2dx 2024 年 12 月 10 日 纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。 |
2 shintendo 2024 年 12 月 10 日 文件体积除以页数 |
4 paopjian 2024 年 12 月 10 日 直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版 |
5 mclxly OP |
7 sketcherly 2024 年 12 月 10 日 直接解析 pdf 统计字数呢 |
8 CLMan 2024 年 12 月 10 日 就算是用 文件大小/页 ,准确率应该也差不到哪里去。 |
9 cowcomic 2024 年 12 月 10 日 如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了 除非要求比较精确,百分之多少是图片之类的 |
10 mclxly OP |
11 xiaomageit 2024 年 12 月 10 日 降精 |
12 israinbow 2024 年 12 月 11 日 via Android 文字版 pdf 转成 html 看起来会很有逻辑. |