V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
devinmagic
V2EX  ›  问与答

本地有几十万本电子书,怎么搜索书中的文本内容?

  •  
  •   devinmagic · 328 天前 · 1998 次点击
    这是一个创建于 328 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请问各位技术达人,本地有二三十万本电子书,可以转为 txt 格式,总容量有上百 G ,请问有什么办法可以快速检索图书中的内容,例如搜索“曹雪芹”就能找到相对应的图书。自己有一台迷你小主机存储这些图书,可以在上面部署服务,谢谢各位了!
    17 条回复    2024-01-11 10:44:06 +08:00
    blankmiss
        1
    blankmiss  
       328 天前
    我感觉很难哦 你的文本内容太大了
    ysn2233
        2
    ysn2233  
       328 天前   ❤️ 1
    meilisearch es pg ,能建全文索引的都行吧
    manasheep
        3
    manasheep  
       328 天前   ❤️ 1
    AnyTXT Searcher
    diivL
        4
    diivL  
       328 天前
    建成 WEB, 然后用 google 的站内搜索
    devinmagic
        5
    devinmagic  
    OP
       328 天前
    @diivL 很多书都没版权,放到网上估计要被封
    zihuyishi
        6
    zihuyishi  
       328 天前
    elasticsearch 不就是用来做这个的么,不知道现在中文支持的咋样了
    Raynard
        7
    Raynard  
       328 天前
    notepad++?

    没试过这么多,最多同时搜索过几百个,

    或者上传到群晖试试?能搜索文件内的内容
    wonderfulcxm
        8
    wonderfulcxm  
       328 天前 via iPhone
    可以转 txt 那就转了, 交给 ChatGPT 知识库,打造一个查询问答机器人。
    Raynard
        9
    Raynard  
       328 天前
    @wonderfulcxm 费用爆表了,哈哈哈
    BeautifulSoap
        10
    BeautifulSoap  
       328 天前 via Android
    一本 300kb 的 txt 文字量的话,20w 本共 57gb 的文字量,es 可以处理
    或者本地跑个大语言模型,只不过对显卡要求有点高
    hicdn
        11
    hicdn  
       328 天前 via Android
    sun1991
        12
    sun1991  
       328 天前
    grepWin or FileLocator
    PbCopy111
        13
    PbCopy111  
       328 天前
    不如。。。直接用百度搜。。。然后自己再看书。
    fanyingmao
        14
    fanyingmao  
       328 天前
    我是用 Calibre 管理电子书,可以建全文索引
    xuanjiangsara
        15
    xuanjiangsara  
       327 天前
    @fanyingmao 对的。Calibre 已经可以全文索引查找了。就在平时搜索按钮左边。
    haichao0808
        16
    haichao0808  
       324 天前
    如果是在 linux 系统里面的话,可以试试 grep 或者 ag 命令,可以直接搜索文本内容,但是几百 G 估计比较久
    flynaj
        17
    flynaj  
       323 天前 via Android
    Windows 自带的搜索就可以,不要把索引关了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3543 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 04:27 · PVG 12:27 · LAX 20:27 · JFK 23:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.