让你的扫描版 PDF 能够被搜索,顺便求职深圳 Python 后台开发岗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 2791 天前的主题，其中的信息可能已经有所发展或是发生改变。

后台实现详情见 https://www.ficapy.com/2018/04/01/pdfaddtext_architecture/

因为个人有几本扫描版的 PDF 书籍，无法进行文本内容搜索。同时逛 V2 的时候也发现有人有同样的问题，比如https://www.v2ex.com/t/420491，https://www.v2ex.com/t/408071。于是用 Python 写了一个小工具，原理就是调用 OCR 接口得到图片识别结果。将结果作为隐藏文字层放置到对应文字的上方，这样 PDF 阅读器就可以搜索到相应的文本了

最开始只是写了一个 Python 脚本。后来写成了一个 web 服务，使用 C++编译成 wasm 让 PDF 修改操作在浏览器端执行避免了文件的下载。虽然同时使用了多家 OCR 的服务，但是处理任务数量依然有限。只能限制每个 PDF 文件不超过 20 页，提供 Python 小脚本，可以自己注册百度的免费服务本地执行转换

后端代码暂时没有开源出来，过段时间会~~~

最后求个深圳 Python 开发岗，3 年工作经验，熟悉 Python 了解 Golang。意向为后台开发或者运维平台开发，求大佬推荐

联系地址(base64)

微信: RmljYXB5

邮箱: YWZleGNnQGdtYWlsLmNvbQ==

第 1 条附言 · 2018-04-02 12:41:42 +08:00

机器学习这么火热，顺便问问有没有靠谱的可开发的 OCR 引擎可以折腾。想加上本地 OCR，虽然质量会差一些。但是不必受制于第三方服务，这样就能解开 20 页的限制了

Python

PDF

后台

脚本

13 条回复 • 2018-04-02 22:50:44 +08:00