V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
dassh
V2EX  ›  分享创造

OLOCR:个人开发的一个在线 OCR 网站

  •  
  •   dassh · 2023-06-12 17:41:38 +08:00 · 2545 次点击
    这是一个创建于 559 天前的主题,其中的信息可能已经有所发展或是发生改变。
    地址: https://olocr.com
    基于 ONNX ,PaddleOCR ,web worker


    功能:
    1. 图片、PDF 的 OCR ,图片支持批量上传
    2. 完全在线预测,不存储用户图片 /PDF
    3. 修正 OCR 结果
    4. 倒转、90 度图片 OCR
    5. 选中、复制、导出结果(导出为 json 时可导出坐标)
    6. 历史记录
    7. 多种语言

    小技巧:
    1. 直接复制图片或者 PDF ,再在网站中粘贴,即可 OCR ,使用场景举例:
    a. 资源管理器复制图片,在本网站粘贴
    b. 用 snipaste 的截图并复制快捷功能,在本网站粘贴
    注意事项:
    1. 暂不支持 iOS/Android 手机浏览器,不知道是什么原因,iOS 原本在使用 web worker 预测前的版本是支持的,后续改到 web worker 就不行了;安卓则是全程不行
    2. 打不开网站的话,用下梯子

    问题反馈 /建议:绿色图标软件 bmljZTJp
    第 1 条附言  ·  2023-06-22 07:17:21 +08:00

    已更新支持手机浏览器进行ocr,并优化大PDF处理过程

    37 条回复    2023-09-19 23:34:28 +08:00
    justincnn
        1
    justincnn  
       2023-06-12 17:47:16 +08:00
    准确率很高,支持 pdf 转 excel 么?
    dassh
        2
    dassh  
    OP
       2023-06-12 17:50:55 +08:00
    @justincnn 如果说的是提取 PDF 中的表格并正确放入一个个单元格的话,是不支持的
    EmpCold
        3
    EmpCold  
       2023-06-12 17:51:23 +08:00
    这个。。我这边测试准确率有点差
    dassh
        4
    dassh  
    OP
       2023-06-12 17:54:27 +08:00
    @EmpCold 默认是识别英文的模型哈,在 language 手动切换一下 chinese simplified
    itxh
        5
    itxh  
       2023-06-12 17:54:55 +08:00
    已收录到 https://www.wangdu.site/software/566.html ,希望对你有所帮助
    dassh
        6
    dassh  
    OP
       2023-06-12 17:56:03 +08:00
    @itxh 非常非常感谢!
    EmpCold
        7
    EmpCold  
       2023-06-12 18:05:38 +08:00
    @dassh #4 这下可以的,可能是我第一次切换没有切换成功。。
    kebamt
        8
    kebamt  
       2023-06-12 18:35:04 +08:00
    稍微复杂的就处理不了,而且太慢了
    dassh
        9
    dassh  
    OP
       2023-06-12 18:36:04 +08:00 via iPhone
    @kebamt 可以发出来我看看?
    oneisall8955
        10
    oneisall8955  
       2023-06-12 19:13:58 +08:00
    支持直接粘贴吗?
    oneisall8955
        11
    oneisall8955  
       2023-06-12 19:14:32 +08:00
    @oneisall8955 不好意思,没看到下面的小技巧
    fox
        12
    fox  
       2023-06-12 20:33:43 +08:00
    支持一下,蛮好
    vueli
        13
    vueli  
       2023-06-13 09:16:11 +08:00
    我记得之前有个事情,说什么 orc 的问题坐牢的。具体什么东西我忘记了,楼主留个心眼
    dassh
        14
    dassh  
    OP
       2023-06-13 09:18:41 +08:00
    @vueli 啊?有链接、关键词吗
    vueli
        15
    vueli  
       2023-06-13 09:36:21 +08:00
    @dassh 我可能记错了,记忆中朦朦胧胧有一个关于 ocr 的新闻
    yqf0215
        16
    yqf0215  
       2023-06-13 10:00:47 +08:00
    非常好,请教一下,ocr 有办法识别相应文字的字体、字体大小、粗细、颜色这些信息吗?
    subframe75361
        17
    subframe75361  
       2023-06-13 10:09:37 +08:00
    可以支持一下 pwa 吗
    subframe75361
        18
    subframe75361  
       2023-06-13 10:11:26 +08:00
    非常好用
    dassh
        19
    dassh  
    OP
       2023-06-13 10:21:18 +08:00
    @yqf0215 这块没有研究,搜索了下也不知其然,不好意思
    dassh
        20
    dassh  
    OP
       2023-06-13 10:26:46 +08:00
    @subframe75361 感谢支持,近期可能不会弄 pwa ,因为不太懂这块,目前的最优先的是使用多 worker 加速识别速度、尝试支持手机浏览器,后续弄完我学学看。
    yuanchao
        21
    yuanchao  
       2023-06-13 11:11:13 +08:00
    如果要支持表格提取识别,可以弄吗
    fakecoder
        22
    fakecoder  
       2023-06-13 11:12:06 +08:00
    优秀!
    dassh
        23
    dassh  
    OP
       2023-06-13 11:27:32 +08:00
    @yuanchao 这里面涉及的工作量比较大,短期内应该不会支持,后续支持了我 @你
    yqf0215
        24
    yqf0215  
       2023-06-13 11:33:14 +08:00
    @dassh 没关系,我也一直没找到
    monkey110
        25
    monkey110  
       2023-06-13 11:38:20 +08:00 via Android
    @vueli shuax 作者用自己开发的软件 ocr 群里裸,贷链接然后又发到群里的这事吧 主打一个分享
    hteen
        26
    hteen  
       2023-06-13 16:00:58 +08:00
    BUG 😂

    dassh
        27
    dassh  
    OP
       2023-06-13 16:16:15 +08:00
    @hteen 是有小概率漏检的,尤其是针对歪歪扭扭的。
    ps: 本网站:“我做不到”
    RatioPattern
        28
    RatioPattern  
       2023-06-13 22:53:20 +08:00
    英文效果很好,比 python-docr 和 tesseract 默认都好多了
    RatioPattern
        29
    RatioPattern  
       2023-06-13 22:57:49 +08:00
    没有做任何微调达到的效果吗
    dassh
        30
    dassh  
    OP
       2023-06-13 23:16:36 +08:00 via iPhone
    @RatioPattern 是的
    jzyzcz
        31
    jzyzcz  
       2023-06-14 00:01:52 +08:00
    速度很快!后面会推出收费模式吗?
    dassh
        32
    dassh  
    OP
       2023-06-14 07:45:22 +08:00 via iPhone
    @jzyzcz
    关于收费: 短期不考虑,一是做 ocr 的网站太多,又没什么杀手级功能,二是接入支付挺麻烦(没做过),三是用户量没几个,收费都跑了。一开始想法是接入 adsense 看能收回服务器成本不,但 adsense 不给新站过,先等等
    关于速度: 目前都是单线程预测的,计划增加配置使用多线程预测,配置越多,速度越快,当然你 cpu 和内存也占用越多

    近期规划:
    1. 网站是 23 年 5 月 21 日上线的,google search console 配置了,但 ocr 网站太多,搜索 online ocr 前 8 页都找不到(没有第 9 页,只有 8 页),我有在后台统计 ocr 的图片数量、pdf 页数(也仅限于此),在 v2 发这贴之前,这个数字基本每天都是 0 ,所以我得学学怎么宣传,seo ,做外链这些
    2. 上面提到的速度优化
    3. 注意到有人尝试了 ocr 一个几百页的 pdf ,一本书?我也试了下,直接快卡死一段时间,后面在预测第二页时崩了,分析了下当前是用同步的方法将所有图片加载到内存,所以一次性加载几百张图片撑不住,不知道这个是不是强需求,我会尝试解决
    kangyangqishi
        33
    kangyangqishi  
       2023-06-14 09:38:36 +08:00
    @vueli 他是把识别到的敏感信息发到群里了,那他就成了传播信息的第一人了
    https://www.zhihu.com/question/557314765/answer/2709198002
    LavaC
        34
    LavaC  
       2023-06-14 10:30:44 +08:00
    好奇问一下 op ,如果想做一个适配异型字体(异型到看不出是什么)的 ocr 工具,也可以应用你这套开发流程吗?
    只需要识别 26 个英文字母就好了。
    dassh
        35
    dassh  
    OP
       2023-06-14 10:49:29 +08:00
    @LavaC 可以的,“异型到看不出是原字母”的话,就需要单独训练一个识别模型,只有 26 个字母的话大概 10k 的训练样本吧(经验之谈)。
    然后针对你说的:“我这套开发流程”,可能并不适用,因为这个网站是针对通用 web 场景的,然后为了省服务器成本,把预测步骤放到了端侧,开发时间全耗在这里面( onnx ,web worker, opencvjs )。你可能更需要的是只是一个 restful 接口,有基础的可以看看 PaddleOCR 文档
    LavaC
        36
    LavaC  
       2023-06-14 13:42:21 +08:00
    @dassh #35 谢谢解惑
    92Developer
        37
    92Developer  
       2023-09-19 23:34:28 +08:00 via Android
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4156 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 04:12 · PVG 12:12 · LAX 20:12 · JFK 23:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.