V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Censhuang
V2EX  ›  问与答

如何精确地做扫描件 pdf 文本可搜索嵌入

  •  
  •   Censhuang · 54 天前 · 804 次点击
    这是一个创建于 54 天前的主题,其中的信息可能已经有所发展或是发生改变。
    abbyy 直接处理图片,直接把图片的文字替换了,图片清晰度大幅度下降
    abbyy 直接处理 pdf ,结果文件出现问题(一张纸上结果图片非常小且不能复制)
    Adobe 中文识别效果不佳
    有何免费的方案去把扫描 pdf 做 ocr 并嵌入(可直接在 pdf 查看里搜索,比如 edge 的 pdf 打开后可以复制)
    想要 pdf 文件显示的是高清晰度的图片且可以复制/搜索文字
    最好同时支持中文/英文/数学公式这类的 OCR
    4 条回复    2024-10-26 04:58:18 +08:00
    mgrddsj
        1
    mgrddsj  
       54 天前 via Android
    Abbyy 的默认设置确实不是特别好,你试试把 Abbyy 里面压缩相关的设置都关掉(印象中有好多个地方需要关),效果会好很多。
    Censhuang
        2
    Censhuang  
    OP
       54 天前
    @mgrddsj #1 主要是这软件感觉不太好用,不太聪明的样子,用的破解版,崩了后得点好几遍才能启动
    Liftman
        3
    Liftman  
       54 天前
    Wondershare PDFelement
    iX8NEGGn
        4
    iX8NEGGn  
       54 天前
    你电脑性能好,就上最近流行的哪些 AI OCR ,否则其他软件对 ABBYY 来说还真没一个能打的,不过它 OCR 后导出文件默认会压缩,不开压缩文件会特别大,原来几百兆的 PDF 会膨胀到几 GB ,我之前电子化纸制书时就遇到了。

    解决办法就是,把 ABBYY OCR 后导出的带文本层的压缩的 PDF 用 pymupdf 提取成纯文本层的 PDF ,接着继续用 pymupdf 把原来的高清图片 PDF 和纯文本层的 PDF 叠加,得到一个既高清又带文本层的 PDF 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1226 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 72ms · UTC 23:25 · PVG 07:25 · LAX 15:25 · JFK 18:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.