V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
totty
V2EX  ›  程序员

有人实际部署过 GPT-OSS-20b 么? 需要什么配置能跑得比较流畅?

  •  
  •   totty · 12 小时 39 分钟前 · 778 次点击

    做萌翻翻译的时候,想用来本地部署做语言检测,AI 翻译和 AI 词典都可能用到,传统的库都不够准确,如果是多语言的话。

    19 条回复    2025-09-01 21:20:26 +08:00
    chiaf
        1
    chiaf  
       12 小时 26 分钟前 via iPhone
    官方说 16G 的 Mac 就能跑。我自己的 64G 跑起来 毫无压力。

    做个参考
    totty
        2
    totty  
    OP
       12 小时 24 分钟前
    @chiaf 你测试的时候主要就是对话不?流畅嘛
    chiaf
        3
    chiaf  
       12 小时 21 分钟前 via iPhone
    @totty 我的配置还是非常流畅。不过没咋测试,20b 还是小
    YsHaNg
        4
    YsHaNg  
       12 小时 7 分钟前 via iPhone
    不如 qwen3 30b
    totty
        5
    totty  
    OP
       12 小时 3 分钟前
    @YsHaNg 但是我用 qwen 30b 有一种说不出来幻觉感啊,很多时候有点无语,答非所问占比很高。
    totty
        6
    totty  
    OP
       12 小时 2 分钟前
    @chiaf 不过你的配置令人羡慕!!!
    YsHaNg
        7
    YsHaNg  
       11 小时 6 分钟前
    @totty 这个级别幻觉很难避免 但是 qwen3 快很多 gpt-oss 架构 graph 部分内存占用也更大
    chiaf
        8
    chiaf  
       10 小时 44 分钟前 via iPhone
    @totty 当初为了跑本地的模型买的😂

    后面就都是用商业的了。

    现在也就是个高配的 Mac ,开发挺爽的🌝
    bearqq
        9
    bearqq  
       10 小时 41 分钟前
    24g 内存 8845HS 集显跑 14.17 token/s 。
    我还是更喜欢用 qwen3-32b ,显卡跑。
    katsusan
        10
    katsusan  
       10 小时 39 分钟前
    16G 能跑的前提是需要英伟达 50 系 blackwell 的 FP4 ,其它平台应该要更多
    privil
        11
    privil  
       10 小时 25 分钟前
    @chiaf #1 跑个量化的字节开源模型 seed-oss-36b 试试,其实比 gpt-oss-20b 还给力点。
    totty
        12
    totty  
    OP
       10 小时 24 分钟前
    @YsHaNg 我再去试试判断语言,幻觉在这个场景下感觉还好。
    totty
        13
    totty  
    OP
       10 小时 22 分钟前
    @bearqq 这个速度感觉有点压力,一次翻译文本输入就得大几百 token ,用户要等太久
    totty
        14
    totty  
    OP
       10 小时 22 分钟前
    @privil 问对地方了
    Pteromyini
        15
    Pteromyini  
       10 小时 3 分钟前
    翻译最好还是用字节专门的 seed 或者用翻译数据集微调一个小规模的模型。小规模的通用模型包括 gpt-oss 实在不太行,激活参数本身也太小了,幻觉难免。
    tomclancy
        16
    tomclancy  
       9 小时 58 分钟前
    我是 9900x 3090 ,思考的时候 GPU 直接满负荷狂转,思考完直接安静了
    totty
        17
    totty  
    OP
       9 小时 34 分钟前
    totty
        18
    totty  
    OP
       9 小时 33 分钟前
    @tomclancy 火星子既视感
    kennylam777
        19
    kennylam777  
       9 小时 31 分钟前
    @katsusan 不用, 我試過用 3090 + Llama.cpp 能直接跑 FP4 的 GGUF, 速度也不錯, 100tps

    而 5090 可以滿血跑 context 128k, 160tps 以上
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1041 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:52 · PVG 06:52 · LAX 15:52 · JFK 18:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.