V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
mclxly
V2EX  ›  问与答

请教 v 友如何分辨一个 pdf 文档是扫描版还是文字版?速度优先,准确率其次

  •  
  •   mclxly · 1 天前 · 581 次点击

    问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。

    12 条回复    2024-12-11 13:56:53 +08:00
    tool2dx
        1
    tool2dx  
       1 天前
    纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。
    shintendo
        2
    shintendo  
       1 天前
    文件体积除以页数
    gpt5
        3
    gpt5  
       1 天前
    @tool2dx 很多扫描都是带 ocr 的,可以选文字。
    paopjian
        4
    paopjian  
       1 天前
    直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版
    mclxly
        5
    mclxly  
    OP
       1 天前
    @tool2dx 有大量文件,得程序自动识别

    @shintendo 文件 1:25 页/588K 文件 2:334 页/1.7M 文件 3:141 页/3.3M ,你说这三本书咋区分?
    mclxly
        6
    mclxly  
    OP
       1 天前
    @paopjian 我遇到过可以提取少量文字的电子书(主要是扫描图片)
    sketcherly
        7
    sketcherly  
       1 天前
    直接解析 pdf 统计字数呢
    CLMan
        8
    CLMan  
       1 天前
    就算是用 文件大小/页 ,准确率应该也差不到哪里去。
    cowcomic
        9
    cowcomic  
       1 天前
    如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了
    除非要求比较精确,百分之多少是图片之类的
    mclxly
        10
    mclxly  
    OP
       1 天前
    @sketcherly 扫描版大部分是图片

    @CLMan 单页大小阈值不好确定

    @cowcomic 百分比阈值不好确定,我遇到过每页都有背景图的文字版电子书
    xiaomageit
        11
    xiaomageit  
       1 天前
    降精
    israinbow
        12
    israinbow  
       16 小时 52 分钟前 via Android
    文字版 pdf 转成 html 看起来会很有逻辑.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   934 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 22:49 · PVG 06:49 · LAX 14:49 · JFK 17:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.