求推荐一个能检索内容的 pdf 文件管理软件

This topic created in 1224 days ago, the information mentioned may be changed or developed.

因为平时会把一些论文、文章转成 pdf 保存，时间久了 pdf 文件非常多，所以想找个 pdf 管理软件，想要的特性如下：

能检索 pdf 标题和内容
最好能给 pdf 文件打标签
B/S 架构，这样可以部署到一台服务器上，多端访问

谢谢。

PDF

检索

文件

软件

30 replies • 2023-03-15 16:53:55 +08:00

jamosLi

Mar 14, 2023

有了踢踢我

koto

Mar 14, 2023

abbyy ？不过是收费的

DigitalG

Mar 14, 2023

devonthink 有 server 版本，一次性付费，虽然比较贵。

DigitalG

Mar 14, 2023

@DigitalG 不过除了 server ，client 只有 Apple 生态的版本

shalingye

Mar 14, 2023 via Android

calibre ，能写元数据，自带 web 服务，但似乎不能检索 pdf 内容。

virlaser

Mar 14, 2023

目前用的 NAS 实现这个功能
对于可以复制文字的 PDF ，NAS 可以直接索引里面的文字，直接搜索
对于不能复制文字的 PDF ，需要先通过 OCR 软件识别一下（之前用的 PDFElement ，不过好像调的还是 abbyy 引擎），在 PDF 上覆盖一层透明的文字层，然后再保存到 NAS 里面，这样就可以索引了
NAS 本身的文件管理提供了打标签、多端访问和索引的功能

MasterofNone

Mar 14, 2023

为啥没人说 zotero 和 endnote

tool2d

Mar 14, 2023

自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ，然后针对 txt 做文本搜索，就会方便太多。

f1ynnv2

Mar 14, 2023

@mmm159357456 调研过 zotero ，这个好像就是个单体软件，只是能通过 webdav 同步，离 web-based 有些远。endnote 没接触过，我去了解下。

f1ynnv2

Mar 14, 2023

@tool2d 理论上确实是可以自己写，但是时间花在这上面不太值。

f1ynnv2

Mar 14, 2023

找到一个开源的，似乎完美符合我的要求。
https://github.com/papermerge/papermerge-core

litengyu86

Mar 14, 2023

@koto abbyy 丢丢贵

TerranceL

Mar 14, 2023

mendely

f1ynnv2

Mar 14, 2023

@f1ynnv2 试了下，功能是有，但是不稳定。。

NutsoGao

Mar 14, 2023

插眼，有了我踢踢我

beyondex

Mar 14, 2023

sea desktop search ，满足 1 ，3 B/S 架构，这样可以部署到一台服务器上，多端访问
不过浏览器访问需要手动配置，倒也不复杂，不提供傻瓜化开关。

aitianci

Mar 14, 2023

mendeley 和 zotero 确实符合条件，我现在在用的是 zotero ，可以手动导入 pdf 然后它自己会 OCR 搞一套检索，标题内容都能搜索，至于打标签那是基本功能，科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步，多端访问也不成问题。

kukat

Mar 14, 2023

paperless-ngx

congjinyebaiya

Mar 14, 2023 via iPhone

zotero 貌似可以

wanghaoyang

Mar 14, 2023

Confluence

hicdn

Mar 14, 2023

继续安利 recoll ，https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台，功能十分强大，压缩包里的文件内容都可以索引，还能自己扩展可索引的文件后缀名，比如 xmind 的思维导图。

mmdsun

Mar 14, 2023

我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容，用的微博 Vposy 大神出的 Adobe 全家桶

em70

Mar 14, 2023

chatPDF

mmdsun

Mar 14, 2023

抱歉没看 B/S 架构，建议用 Apache Solr 。PDF\word 各种格式都能搜索，类似 ES ，带 UI

Apache Solr：
https://solr.apache.org/features.html

f1ynnv2

Mar 14, 2023

@kukat 试用了一下，这个确实很好用，基本满足我列的要求。非常感谢
不过默认自带的 ocr 不支持中文，用 Docker 的话得自己重新写个 Dockerfile

dier

Mar 14, 2023 via iPhone

听说最近出了一个 chatPDF

enrolls

Mar 14, 2023 via iPhone

这个整合一下应用，应该很快就能有雏形啊

kukat

Mar 15, 2023

@f1ynnv2 不用啊，可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

用官方提供的安装脚本就行，不过语言项有点 bug ，一会下划线一会横线…… 记得改一下 docker-compose.env
PAPERLESS_OCR_LANGUAGE=eng+chi_sim
PAPERLESS_OCR_LANGUAGES=eng chi-sim

f1ynnv2

Mar 15, 2023

@kukat 我启动 docker 时提示没安装 chi 的 ocr ，只好自己又装了一下重新做了个镜像

f1ynnv2

Mar 15, 2023

@kukat 请问一下，docker 镜像里，我已经通过 apt install tesseract-ocr-chi-sim 了，但是启动的时候仍然提示

2023-03-15 16:36:16 Reading package lists...
2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

不过奇怪的是确实已经可以 OCR 扫描到文字了。