大模型什么样的速度是靠谱的

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 47 天前的主题，其中的信息可能已经有所发展或是发生改变。

用了一台昇腾 910b 跑 qwen32b 的模型，

一个 dify 知识库的回答，跑 LLM 用了 30s ，这个正常吗？手头没有 H100 这样 nb 的机器。

2 条回复 • 2025-08-17 15:58:40 +08:00

guoguobaba

47 天前

oldlamp

36 天前

粗略来说，得看 tokens/s