后台实现详情见 https://www.ficapy.com/2018/04/01/pdfaddtext_architecture/
因为个人有几本扫描版的 PDF 书籍,无法进行文本内容搜索。同时逛 V2 的时候也发现有人有同样的问题,比如https://www.v2ex.com/t/420491,https://www.v2ex.com/t/408071。于是用 Python 写了一个小工具,原理就是调用 OCR 接口得到图片识别结果。将结果作为隐藏文字层放置到对应文字的上方,这样 PDF 阅读器就可以搜索到相应的文本了
最开始只是写了一个 Python 脚本。后来写成了一个 web 服务,使用 C++编译成 wasm 让 PDF 修改操作在浏览器端执行避免了文件的下载。虽然同时使用了多家 OCR 的服务,但是处理任务数量依然有限。只能限制每个 PDF 文件不超过 20 页,提供 Python 小脚本,可以自己注册百度的免费服务本地执行转换
后端代码暂时没有开源出来,过段时间会~~~
最后求个深圳 Python 开发岗,3 年工作经验,熟悉 Python 了解 Golang。意向为后台开发或者运维平台开发,求大佬推荐
联系地址(base64)
微信: RmljYXB5
邮箱: YWZleGNnQGdtYWlsLmNvbQ==
1
lyping 2018-04-02 10:28:56 +08:00
喜欢这个工具
|
2
zzzzzdai 2018-04-02 12:35:14 +08:00
先赞
|
3
MemoryCorner 2018-04-02 12:36:05 +08:00
这个还蛮使实用的
|
4
Arnie97 2018-04-02 12:46:09 +08:00 via Android
支持,居然适配了这么多不同的接口
|
5
congeec 2018-04-02 13:06:47 +08:00 via iPhone
前段时间 GitHub 有个类似弄笔记的项目挺火
Acrobat 能实现,不过收费 |
6
aec4d OP |
7
standin000 2018-04-02 14:11:56 +08:00
支持楼主下。
|
8
wxl1380610 2018-04-02 16:30:12 +08:00
这个挺有用的 。
|
9
devlnt 2018-04-02 18:36:34 +08:00
本地 ocr 的话,不考虑中文,用 tesseract 试试看。楼上也有提到 acrobat,识别率和位置啥的都是超棒的,只是 com 接口貌似不能调用识别的插件,楼主可以尝试着研究下
|
10
bikkgry 2018-04-02 19:56:09 +08:00
这方面最强的是 ABBYY FineReader14 了吧。不过售价感人。http://www.abbyy.cn/finereader/
|
11
xiaofengchen 2018-04-02 20:25:20 +08:00 via Android
赞
|
12
aec4d OP @devlnt @bikkgry 需要考虑中文,本地我找过付费的,价格都很感人
开源的看过 https://github.com/JinpengLI/deep_ocr,感觉识别准确率也不怎么样(还没有深入了解能不能基于这个在上面改) |