有人实际部署过 GPT-OSS-20b 么？需要什么配置能跑得比较流畅？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

做萌翻翻译的时候，想用来本地部署做语言检测，AI 翻译和 AI 词典都可能用到，传统的库都不够准确，如果是多语言的话。

gpt-oss-20b

配置

流畅

30 条回复 • 2025-09-02 21:45:26 +08:00

chiaf

21 天前 via iPhone

官方说 16G 的 Mac 就能跑。我自己的 64G 跑起来毫无压力。

做个参考

totty

21 天前

@chiaf 你测试的时候主要就是对话不？流畅嘛

chiaf

21 天前 via iPhone

@totty 我的配置还是非常流畅。不过没咋测试，20b 还是小

YsHaNg

21 天前 via iPhone

不如 qwen3 30b

totty

21 天前

@YsHaNg 但是我用 qwen 30b 有一种说不出来幻觉感啊，很多时候有点无语，答非所问占比很高。

totty

21 天前

@chiaf 不过你的配置令人羡慕！！！

YsHaNg

21 天前

@totty 这个级别幻觉很难避免但是 qwen3 快很多 gpt-oss 架构 graph 部分内存占用也更大

chiaf

21 天前 via iPhone

@totty 当初为了跑本地的模型买的😂

后面就都是用商业的了。

现在也就是个高配的 Mac ，开发挺爽的🌝

bearqq

21 天前

24g 内存 8845HS 集显跑 14.17 token/s 。
我还是更喜欢用 qwen3-32b ，显卡跑。

katsusan

21 天前

16G 能跑的前提是需要英伟达 50 系 blackwell 的 FP4 ，其它平台应该要更多

privil

21 天前

@chiaf #1 跑个量化的字节开源模型 seed-oss-36b 试试，其实比 gpt-oss-20b 还给力点。

totty

21 天前

@YsHaNg 我再去试试判断语言，幻觉在这个场景下感觉还好。

totty

21 天前

@bearqq 这个速度感觉有点压力，一次翻译文本输入就得大几百 token ，用户要等太久

totty

21 天前

@privil 问对地方了

Pteromyini

21 天前

翻译最好还是用字节专门的 seed 或者用翻译数据集微调一个小规模的模型。小规模的通用模型包括 gpt-oss 实在不太行，激活参数本身也太小了，幻觉难免。

tomclancy

21 天前

我是 9900x 3090 ，思考的时候 GPU 直接满负荷狂转，思考完直接安静了

totty

21 天前

@Pteromyini OKK

totty

21 天前

@tomclancy 火星子既视感

kennylam777

21 天前

@katsusan 不用, 我試過用 3090 + Llama.cpp 能直接跑 FP4 的 GGUF, 速度也不錯, 100tps

而 5090 可以滿血跑 context 128k, 160tps 以上

bmin

21 天前

笔记本电脑 5070ti （ 12G ），完全加载进 GPU 跑，上下文 8192 ，可以跑 35-40 token/s

BlueSkyXN

21 天前

Macbook Air M4 24G 推理速度
Qwen3-4b:16tps
Deepseek-r1-8b: 15tps
GPT-oss-20b:19tps

RTX4080 没测

ByteCat

21 天前

要求很低，我用 RTX A4000 跑，只吃 12G 显存，速度还行，50tokens/s

zhengfan2016

20 天前

我用 ollama 4060ti 16G 能跑啊

totty

20 天前

@zhengfan2016 我也想用这个配置，速度如何？

mengdodo

20 天前

用一台独立服务器跑过，64G 内存 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz * 2 的，结果慢的一匹，你可以自己试试

yjhatfdu2

20 天前

M3 ultra 跑 gpt-oss-120B 可以跑到 75t/s 左右，跑 gpt-oss-20b 能跑 120t/s 左右

zhengfan2016

20 天前

@totty #24

totty

20 天前

@zhengfan2016 收到

totty

20 天前

@yjhatfdu2 收到

totty

20 天前

@mengdodo 你这主要问题是用 CPU：）

有人实际部署过 GPT-OSS-20b 么？ 需要什么配置能跑得比较流畅？

有人实际部署过 GPT-OSS-20b 么？需要什么配置能跑得比较流畅？