1
xiri 2020 年 1 月 14 日 via Android
pdf 对信息自动化处理来说简直是噩梦🙃
|
2
EricInBj 2020 年 1 月 14 日
应该有错误输出的,大概率是字体缺失?
|
3
BryceBu OP |
4
PopRain 2020 年 1 月 14 日
我觉得是类库不支持嵌入字体
|
5
Rorysky 2020 年 1 月 14 日
pymupdf 试试
|
6
BryceBu OP 刚刚在 Ubuntu 上试了一下,可以识别了
我下载的 STSong-light 字体文件都不能安装 看来原因还是 Windows 不支持这个字体? |
7
huaxie1988 2020 年 7 月 9 日
为什么我 windows 和 centos 都读不出来中文
|
8
BryceBu OP @huaxie1988 #7 先用工具识别出 pdf 的字体,再查你的系统支不支持这个字体
|
9
aec4d 2020 年 7 月 14 日
先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片
接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本 |