写了个玩具项目： LLM 对比测试平台，同时对比如 OpenAI、DeepSeek、Gemini 等平台 LLM 回答质量、响应速度

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 139 天前的主题，其中的信息可能已经有所发展或是发生改变。

一个用于比较多个大型语言模型（ LLM ）性能和响应质量的前端网页程序，具体项目介绍可以看 GitHub 地址

GitHub 地址： https://github.com/PrintNow/LLM-Compare
预览地址（需要进行配置）： https://llm-compare.nowtime.cc/

截图：

首页对话	配置	系统提示词

🤔 为什么会有此项目？

因为工作项目中需要用到 LLM API 做一些功能，这时候就需要对比不同平台（如 ChatGPT 、DeepSeek 、Gemini 、阿里百炼、火山引擎等） LLM 实际表现能力如何(回答质量、响应速度)，原本使用如 Chatbox 开不同对话进行测试，但是效率有点低（可能我没发现更好的用法），然后就有了本项目。

为了做这个项目大概分为以下步骤：

脑子里大概想到的一个布局，然后用简单的画图工具画出一个草图
通过 Cursor 工具进行提示、生成代码
不断优化提示词有了本项目
然后因为样式难看，就借鉴了一些项目 + AI 画了个图让 Cursor 还原

✨ 核心功能

多模型并行测试：同时向多个 LLM 发送相同的系统提示语（ System Prompt ）和用户问题（ User Prompt ），并比较它们的响应响应结果，每次对话无上下文关联，特别适合如调研不同平台 LLM 回答质量
会话管理：创建、切换和删除多个会话
系统提示词定制：为每个会话自定义系统提示词
性能指标：显示响应时间和 Token 使用量关键指标
清晰的 UI：直观的时间线设计，清晰区分不同对话组

🟩 结尾

本项目开箱即可使用，但是有一些功能是没有完善的比如新建对话的命名（因为感觉不是特别重要，就没有优先去做 😂），后面会慢慢进行完善 : )

欢迎大家评论交流

目前尚无回复

llm 对比测试平台多模型并行测试