V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mythjava
V2EX  ›  Local LLM

10 万条记录, 我应该选择什么 Embedding 模型和向量数据库呢

  •  
  •   mythjava · 5 天前 · 608 次点击

    想要在本地服务器上跑开源模型, 这样能省一点钱, 不过如果云上 API 的效果比较好的话, 在云上也是可以的

    我对这方面不是很了解, 希望各位给出指导意见

    3 条回复    2025-10-14 13:51:00 +08:00
    spike0100
        1
    spike0100  
       5 天前   ❤️ 1
    仅供参考:
    8w 多条数据
    向量数据库:ES (已有数据库的扩展,不想维护新的数据库)
    模型:text-embedding-v4 (支持多语言)
    mythjava
        2
    mythjava  
    OP
       5 天前
    @spike0100 十分感谢
    liulicaixiao
        3
    liulicaixiao  
       5 天前   ❤️ 1
    不搞长期大工程,单纯练手可以用 faiss ,python 调个库就能用,内置也有小型的 embedding model ,或者用 openai text-embedding-3-small 级别能满足大部分要求。如果是企业级甚至更高,我就不清楚了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   813 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 20:28 · PVG 04:28 · LAX 13:28 · JFK 16:28
    ♥ Do have faith in what you're doing.