因为平时会把一些论文、文章转成 pdf 保存,时间久了 pdf 文件非常多,所以想找个 pdf 管理软件,想要的特性如下:
谢谢。
1
jamosLi 2023-03-14 09:41:48 +08:00
有了踢踢我
|
2
koto 2023-03-14 09:42:32 +08:00
abbyy ?不过是收费的
|
3
DigitalG 2023-03-14 09:52:38 +08:00
devonthink 有 server 版本,一次性付费,虽然比较贵。
|
5
shalingye 2023-03-14 10:00:47 +08:00 via Android
calibre ,能写元数据,自带 web 服务,但似乎不能检索 pdf 内容。
|
6
virlaser 2023-03-14 10:05:37 +08:00
目前用的 NAS 实现这个功能
对于可以复制文字的 PDF ,NAS 可以直接索引里面的文字,直接搜索 对于不能复制文字的 PDF ,需要先通过 OCR 软件识别一下(之前用的 PDFElement ,不过好像调的还是 abbyy 引擎),在 PDF 上覆盖一层透明的文字层,然后再保存到 NAS 里面,这样就可以索引了 NAS 本身的文件管理提供了打标签、多端访问和索引的功能 |
7
mmm159357456 2023-03-14 10:11:52 +08:00 1
为啥没人说 zotero 和 endnote
|
8
tool2d 2023-03-14 10:16:55 +08:00
自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ,然后针对 txt 做文本搜索,就会方便太多。
|
9
f1ynnv2 OP @mmm159357456 调研过 zotero ,这个好像就是个单体软件,只是能通过 webdav 同步,离 web-based 有些远。endnote 没接触过,我去了解下。
|
11
f1ynnv2 OP 找到一个开源的,似乎完美符合我的要求。
https://github.com/papermerge/papermerge-core |
12
litengyu86 2023-03-14 12:35:02 +08:00
@koto abbyy 丢丢贵
|
13
TerranceL 2023-03-14 13:05:23 +08:00
mendely
|
15
NutsoGao 2023-03-14 13:38:06 +08:00
插眼,有了我踢踢我
|
16
beyondex 2023-03-14 15:53:05 +08:00
sea desktop search ,满足 1 ,3 B/S 架构,这样可以部署到一台服务器上,多端访问
不过浏览器访问需要手动配置,倒也不复杂,不提供傻瓜化开关。 |
17
aitianci 2023-03-14 16:52:29 +08:00
mendeley 和 zotero 确实符合条件,我现在在用的是 zotero ,可以手动导入 pdf 然后它自己会 OCR 搞一套检索,标题内容都能搜索,至于打标签那是基本功能,科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步,多端访问也不成问题。
|
18
kukat 2023-03-14 18:08:47 +08:00
paperless-ngx
|
19
congjinyebaiya 2023-03-14 18:21:28 +08:00 via iPhone
zotero 貌似可以
|
20
wanghaoyang 2023-03-14 18:31:24 +08:00
Confluence
|
21
hicdn 2023-03-14 22:07:52 +08:00
继续安利 recoll ,https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台,功能十分强大,压缩包里的文件内容都可以索引,还能自己扩展可索引的文件后缀名,比如 xmind 的思维导图。
|
22
mmdsun 2023-03-14 22:11:10 +08:00
我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容,用的 微博 Vposy 大神出的 Adobe 全家桶
|
23
em70 2023-03-14 22:13:10 +08:00
chatPDF
|
24
mmdsun 2023-03-14 22:14:47 +08:00
抱歉没看 B/S 架构,建议用 Apache Solr 。PDF\word 各种格式都能搜索,类似 ES ,带 UI
Apache Solr: https://solr.apache.org/features.html |
25
f1ynnv2 OP @kukat 试用了一下,这个确实很好用,基本满足我列的要求。非常感谢
不过默认自带的 ocr 不支持中文,用 Docker 的话得自己重新写个 Dockerfile |
26
dier 2023-03-14 22:49:33 +08:00 via iPhone
听说最近出了一个 chatPDF
|
27
enrolls 2023-03-14 23:07:14 +08:00 via iPhone
这个整合一下应用,应该很快就能有雏形啊
|
28
kukat 2023-03-15 10:13:48 +08:00
@f1ynnv2 不用啊,可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr
用官方提供的安装脚本就行,不过语言项有点 bug ,一会下划线一会横线…… 记得改一下 docker-compose.env PAPERLESS_OCR_LANGUAGE=eng+chi_sim PAPERLESS_OCR_LANGUAGES=eng chi-sim |
30
f1ynnv2 OP @kukat 请问一下,docker 镜像里,我已经通过 apt install tesseract-ocr-chi-sim 了,但是启动的时候仍然提示
2023-03-15 16:36:16 Reading package lists... 2023-03-15 16:36:16 Package tesseract-ocr-eng already installed! 2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :( 不过奇怪的是确实已经可以 OCR 扫描到文字了。 |