V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
v3rocket
V2EX  ›  程序员

RAG 系统如何做 Evaluation 呢

  •  
  •   v3rocket · 2 天前 · 1246 次点击
    想和各位大神请教一下,RAG 系统都怎么做 evaluation 呢? 如果创建 golden dataset 呢? 尤其是海量文档的情况下。

    可以付费请教!
    6 条回复    2025-10-01 15:49:27 +08:00
    Asimov01
        2
    Asimov01  
       2 天前
    也是我困惑的问题,关注一下,等大佬
    wuyazuofeiji
        3
    wuyazuofeiji  
       2 天前
    ragas
    Zhuzhuchenyan
        4
    Zhuzhuchenyan  
       2 天前
    我司很粗犷的,有新的变化之后直接灰度给所有使用者然后对比使用者在多个版本之间的满意度的差异
    专门分了一个人做生产环境的数据采集+分析
    Asimov01
        5
    Asimov01  
       1 天前
    @Zhuzhuchenyan 粗暴但合理,直接让用户做 A/B Test 。但是在正式上线之前怎么做一个合格的效果评估,还是挺重要的,否则就没有用来做 A/B Test 了 😂
    Zhuzhuchenyan
        6
    Zhuzhuchenyan  
       1 天前
    @Asimov01 我们是给公司内部员工使用的,所以不担心用户问题,不过免不了一些批评的声音了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   690 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 20:57 · PVG 04:57 · LAX 13:57 · JFK 16:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.