V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
devinmagic
V2EX  ›  问与答

本地有几十万本电子书,怎么搜索书中的文本内容?

  •  
  •   devinmagic · 2024-01-05 16:37:41 +08:00 · 2039 次点击
    这是一个创建于 365 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请问各位技术达人,本地有二三十万本电子书,可以转为 txt 格式,总容量有上百 G ,请问有什么办法可以快速检索图书中的内容,例如搜索“曹雪芹”就能找到相对应的图书。自己有一台迷你小主机存储这些图书,可以在上面部署服务,谢谢各位了!
    17 条回复    2024-01-11 10:44:06 +08:00
    blankmiss
        1
    blankmiss  
       2024-01-05 17:03:45 +08:00
    我感觉很难哦 你的文本内容太大了
    ysn2233
        2
    ysn2233  
       2024-01-05 17:08:30 +08:00   ❤️ 1
    meilisearch es pg ,能建全文索引的都行吧
    manasheep
        3
    manasheep  
       2024-01-05 17:10:38 +08:00   ❤️ 1
    AnyTXT Searcher
    diivL
        4
    diivL  
       2024-01-05 17:19:29 +08:00
    建成 WEB, 然后用 google 的站内搜索
    devinmagic
        5
    devinmagic  
    OP
       2024-01-05 18:33:59 +08:00
    @diivL 很多书都没版权,放到网上估计要被封
    zihuyishi
        6
    zihuyishi  
       2024-01-05 19:02:42 +08:00
    elasticsearch 不就是用来做这个的么,不知道现在中文支持的咋样了
    Raynard
        7
    Raynard  
       2024-01-05 21:11:23 +08:00
    notepad++?

    没试过这么多,最多同时搜索过几百个,

    或者上传到群晖试试?能搜索文件内的内容
    wonderfulcxm
        8
    wonderfulcxm  
       2024-01-05 21:43:25 +08:00 via iPhone
    可以转 txt 那就转了, 交给 ChatGPT 知识库,打造一个查询问答机器人。
    Raynard
        9
    Raynard  
       2024-01-05 21:55:16 +08:00
    @wonderfulcxm 费用爆表了,哈哈哈
    BeautifulSoap
        10
    BeautifulSoap  
       2024-01-05 21:58:31 +08:00 via Android
    一本 300kb 的 txt 文字量的话,20w 本共 57gb 的文字量,es 可以处理
    或者本地跑个大语言模型,只不过对显卡要求有点高
    hicdn
        11
    hicdn  
       2024-01-05 22:33:19 +08:00 via Android
    sun1991
        12
    sun1991  
       364 天前
    grepWin or FileLocator
    PbCopy111
        13
    PbCopy111  
       364 天前
    不如。。。直接用百度搜。。。然后自己再看书。
    fanyingmao
        14
    fanyingmao  
       364 天前
    我是用 Calibre 管理电子书,可以建全文索引
    xuanjiangsara
        15
    xuanjiangsara  
       364 天前
    @fanyingmao 对的。Calibre 已经可以全文索引查找了。就在平时搜索按钮左边。
    haichao0808
        16
    haichao0808  
       361 天前
    如果是在 linux 系统里面的话,可以试试 grep 或者 ag 命令,可以直接搜索文本内容,但是几百 G 估计比较久
    flynaj
        17
    flynaj  
       359 天前 via Android
    Windows 自带的搜索就可以,不要把索引关了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1014 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 23:05 · PVG 07:05 · LAX 15:05 · JFK 18:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.