背景
朋友工作总要找资料什么的,大多是 pdf 扫描版格式,无法复制,需要转成 word 或者文字,但由于其人穷,又不买那些 pdf 在线转换 word 的工具。得知后,帮助开发一个工具给她使用。
支持功能
- image ocr
node test/ocr.test.js(图片文字提取) - converting scanned PDF's to an image (扫描版 PDF 转为图片后文字提取,同下)
- support pdf cr
node test/pdf.test.js( PDF 文字提取) - support electron desktop packager ( Electron 打包为 Desktop App )
Demo 截图


实现过程介绍
本项目基于百度 AIP 平台,OCR 接口
图片 OCR 提取文字
这个简单,直接走百度 OCR 即可得到结果。node.js 调用 SDK 而已
正常格式 PDF
这个通过pdfinfo 工具 + GraphicsMagick 来实现,pdfinfo 获取 pdf 文件信息(分页信息等),GraphicsMagick 将 pdf 作为图片(处理图片很强大)。
扫描版 PDF
这个麻烦是在 pdfinfo 工具是无法获取 pdf 文件信息的,需要代码做兼容情况处理。扫描版 PDF 最终还是转换图片后再 OCR 提取文字。
源码
详细使用方式阅读README.md
https://github.com/giscafer/easyocr
欢迎━(`)ノ亻!学习交流
