python-docx 可以处理 docx 文件,doc 会有问题。 如果将 doc 转为 docx 就需要借助外部 win32com 或 libreoffice ,有没有能不借助外部处理方法 或者有没有可以处理 doc 内容获取的的库

python-docx 可以处理 docx 文件,doc 会有问题。 如果将 doc 转为 docx 就需要借助外部 win32com 或 libreoffice ,有没有能不借助外部处理方法 或者有没有可以处理 doc 内容获取的的库
1 openmynet Jun 7, 2024 Linux 系统下可以使用 wv 进行处理 wvHtml input.doc output.html # to text wvText input.doc output.txt alpine3 liunx: apk add --no-cache wv ubuntu: apt-get install -y wv |
2 azarasi Jun 7, 2024 pandoc |
3 undeflife Jun 7, 2024 4202 年了,我的方案是不兼容 doc 和 xls 格式 |
4 Latin Jun 7, 2024 antiword |
5 djangovcps Jun 7, 2024 aspose |
6 xiqnshang Jun 7, 2024 我之前处理 doc 文件,写了个转换服务把 doc 转成 docx ,然后把 docx 丢给后台处理 |
7 ysc3839 Jun 7, 2024 via Android 看看 WPS 有没有提供什么 API ? |
8 lisxour Jun 7, 2024 还是算了吧,毕竟不开源的格式,你强行支持,在用的时候遇到兼容问题这才真的头痛,你自己几乎是完全无法解决的。 |
9 bugmakerxs Jun 7, 2024 word 处理还是第三方比较靠谱,wps ,libreoffice ,aspose |
10 wumoumou Jun 7, 2024 mammoth.browser.js 这个可以把 doc 转成 html ,提取 html 的内容相对容易些 |
11 TsubasaHanekaw Jun 8, 2024 找台 windows 用 com+接口把 doc 转成 docx,同时还能完成 word ,excel ,ppt 转成 pdf 这些麻烦操作 |
12 fuge Jun 8, 2024 Powershell |