
1 xiri 2020 年 1 月 14 日 via Android pdf 对信息自动化处理来说简直是噩梦 |
2 EricInBj 2020 年 1 月 14 日 应该有错误输出的,大概率是字体缺失? |
3 BryceBu OP |
4 PopRain 2020 年 1 月 14 日 我觉得是类库不支持嵌入字体 |
5 Rorysky 2020 年 1 月 14 日 pymupdf 试试 |
6 BryceBu OP 刚刚在 Ubuntu 上试了一下,可以识别了 我下载的 STSong-light 字体文件都不能安装 看来原因还是 Windows 不支持这个字体? |
7 huaxie1988 2020 年 7 月 9 日 为什么我 windows 和 centos 都读不出来中文 |
8 BryceBu |
9 aec4d 2020 年 7 月 14 日 先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片 接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本 |