V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yestodayHadRain
V2EX  ›  问与答

关于 OCR 识别的一些疑问

  •  
  •   yestodayHadRain · 2021-12-25 23:36:09 +08:00 via iPhone · 2097 次点击
    这是一个创建于 1098 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 楼主现在有个需求,是要将 PDF 扫描件也就是图片转换成 word 格式文件。目前能想到的是直接调用第三方的 OCR 接口,但是图片中定部和底部的内容识别后不能保持原来的样式,中间的表格的样式可以保存。

    • 有试过腾讯云和百度智能云的表格识别,接口支持返回 excel 文件的 base64 编码。但是顶部和底部的样式保存不了,查了下这两家都不支持返回 word 格式。这个大佬们有好的思路推荐吗?

    • 主要是考虑到 PDF 扫描件的格式不确定,所以不能提前设置好模板去写 word 文件。

    01380e01778044a83b37a2f63763c4c

    15 条回复    2022-03-12 20:42:53 +08:00
    Jooooooooo
        1
    Jooooooooo  
       2021-12-25 23:38:42 +08:00
    不知道是否有能自动生成表格的公开库
    yestodayHadRain
        2
    yestodayHadRain  
    OP
       2021-12-25 23:43:12 +08:00 via iPhone
    @Jooooooooo
    这个考虑到精准度,就没有找开源的。直接拿腾讯云和百度智能云的接口试的,他们好像只有表格识别的接口。

    只是识别表格是不行的,顶部和底部的文字也需要提取,并且要保证原有的样式才可以。
    dingwen07
        3
    dingwen07  
       2021-12-26 00:47:56 +08:00 via iPhone
    我记得应该有一种是他让扫描件保留原图,但是可以用鼠标直接复制上面的文字。微软 Office Lens 就是这样的,但是我不知道是不是有第三方实现。
    yestodayHadRain
        4
    yestodayHadRain  
    OP
       2021-12-26 00:54:52 +08:00 via iPhone
    @dingwen07 问题是扫描件都没有,拿到手的就是图片,需要在图片的基础上做处理
    Grouie
        5
    Grouie  
       2021-12-26 02:04:00 +08:00 via iPhone
    abbyy ?
    zdndk598
        6
    zdndk598  
       2021-12-26 05:05:57 +08:00 via iPhone
    直接 Acrobat OCR 修改打印不行?
    holong2000
        7
    holong2000  
       2021-12-26 06:59:15 +08:00   ❤️ 1
    abbyy finereader pro ,把图片格式的 pdf 识别,可以输出 word ,也可以 excel ,表格保存什么样就不知道了
    caryRowen
        8
    caryRowen  
       2021-12-26 07:51:03 +08:00 via Android
    abbyy 表格识别不错
    yestodayHadRain
        9
    yestodayHadRain  
    OP
       2021-12-26 10:19:33 +08:00 via iPhone
    @holong2000 这个好像是一个应用?有在线调用的接口吗?想在程序里实现
    holong2000
        10
    holong2000  
       2021-12-26 11:27:32 +08:00
    软件,windows 版的引擎一般要领先其它版本
    512357301
        11
    512357301  
       2021-12-26 11:55:19 +08:00 via Android
    Excel5 年沉迷用户浅答:你这么干效率很低啊,这明显是表格,这是 Excel 擅长的领域啊,即使你转成 Word 又能如何,难道只是用 Word 打印或者留底儿,那明显 pdf 更擅长打印个留底儿啊。。。
    将来不需要汇总吗,不需要排名吗,不需要做表吗,需要的话这都是 Excel 擅长的啊。。。
    而且用 pdf 汇总和用 word 汇总貌似没啥区别,都是肉眼看吧,然后手动输入吧(假设 Excel 不介入的情况下)
    而且这种评价你在一开始就得介入,让他们用 Excel 甚至网页填报,这样将来产出的都是规范化的数据了,别说汇总了,玩出花来都可以
    holong2000
        12
    holong2000  
       2021-12-26 12:16:10 +08:00
    上面那个图片我用 abbyy finereader ocr 转成 excel 试了一下,我觉得还行
    hertzry
        13
    hertzry  
       2021-12-26 13:45:39 +08:00 via Android
    @512357301 #11 不愧沉迷了 5 年,行家。
    nnqijiu
        14
    nnqijiu  
       2021-12-26 13:53:13 +08:00
    wps 可以转
    leafre
        15
    leafre  
       2022-03-12 20:42:53 +08:00
    遇到相似问题,老哥最后如何解决
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   962 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 21:30 · PVG 05:30 · LAX 13:30 · JFK 16:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.