V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
NowTime
V2EX  ›  分享创造

写了个玩具项目: LLM 对比测试平台,同时对比如 OpenAI、DeepSeek、Gemini 等平台 LLM 回答质量、响应速度

  •  
  •   NowTime ·
    PrintNow · 139 天前 · 2091 次点击
    这是一个创建于 139 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个用于比较多个大型语言模型( LLM )性能和响应质量的前端网页程序,具体项目介绍可以看 GitHub 地址

    截图:

    首页对话 配置 系统提示词
    首页截图 配置截图截图 系统提示词截图

    🤔 为什么会有此项目?

    因为工作项目中需要用到 LLM API 做一些功能,这时候就需要对比不同平台(如 ChatGPT 、DeepSeek 、Gemini 、阿里百炼、火山引擎等) LLM 实际表现能力如何(回答质量、响应速度),原本使用如 Chatbox 开不同对话进行测试,但是效率有点低(可能我没发现更好的用法),然后就有了本项目。

    为了做这个项目大概分为以下步骤:

    1. 脑子里大概想到的一个布局,然后用简单的画图工具画出一个草图
    2. 通过 Cursor 工具进行提示、生成代码
    3. 不断优化提示词有了本项目
    4. 然后因为样式难看,就借鉴了一些项目 + AI 画了个图让 Cursor 还原

    ✨ 核心功能

    • 多模型并行测试:同时向多个 LLM 发送相同的系统提示语( System Prompt )和用户问题( User Prompt ),并比较它们的响应响应结果,每次对话无上下文关联,特别适合如调研不同平台 LLM 回答质量
    • 会话管理:创建、切换和删除多个会话
    • 系统提示词定制:为每个会话自定义系统提示词
    • 性能指标:显示响应时间和 Token 使用量关键指标
    • 清晰的 UI:直观的时间线设计,清晰区分不同对话组

    🟩 结尾

    本项目开箱即可使用,但是有一些功能是没有完善的比如新建对话的命名(因为感觉不是特别重要,就没有优先去做 😂), 后面会慢慢进行完善 : )

    欢迎大家评论交流

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6064 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 02:04 · PVG 10:04 · LAX 19:04 · JFK 22:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.