V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
abcfreedom
V2EX  ›  Local LLM

gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

  •  
  •   abcfreedom · 2024-03-01 18:32:05 +08:00 · 3213 次点击
    这是一个创建于 375 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 2c2g 的服务器上部署了个 gemma:2b ,响应太慢了,如果用家用台式机带 GPU 跑这个模型,什么样的配置才能流畅的进行问题交流?

    30 条回复    2024-03-07 10:19:29 +08:00
    13240284671
        1
    13240284671  
       2024-03-01 18:33:14 +08:00
    2b 要求很低的,有个 6g 显卡就可以了
    crackidz
        2
    crackidz  
       2024-03-01 18:48:18 +08:00
    2B 模型 CPU 跑就行...
    shinyzhu
        3
    shinyzhu  
       2024-03-01 18:50:17 +08:00
    我的 M2 ,24G 非常流畅。
    coinbase
        4
    coinbase  
       2024-03-01 18:50:59 +08:00
    m1 pro 16g ,gemma:7b 也可以跑
    noahlias
        5
    noahlias  
       2024-03-01 19:07:48 +08:00
    我看了一下在我的 8G 3060TI 上 推理速度


    在我的 m1. pro 16g


    看来还是 cuda🐮
    vvhy
        6
    vvhy  
       2024-03-01 20:05:19 +08:00
    1660s ,75 tokens/s
    yankebupt
        7
    yankebupt  
       2024-03-01 20:05:46 +08:00
    @noahlias instruct 模型和 base 模型使用感觉上有什么差距么? 7b 能进行简单中文任务么?
    noahlias
        8
    noahlias  
       2024-03-01 20:28:42 +08:00   ❤️ 1
    @yankebupt 中文你用 qwen 模型吧 那个效果好,instruct 在一些问题回答上会更好啊 当然也是答辩

    想看比较,自己去 llm leaderboard 看吧 ,
    https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
    gongquanlin
        9
    gongquanlin  
       2024-03-01 20:43:17 +08:00
    2b 的模型能干什么工作呀?感觉有点太笨了用起来
    hutng
        10
    hutng  
       2024-03-01 21:34:44 +08:00
    ollama 普通 cpu 也能跑 7b ,但是感觉好垃圾呀,和 chatgpt 差十万八千里,类似于小爱同学这样的,也不知道是不是我用的姿势不对。
    Fish1024
        11
    Fish1024  
       2024-03-01 21:47:22 +08:00
    内存大点就行,13b 也能跑,就是慢点,能用。
    abcfreedom
        12
    abcfreedom  
    OP
       2024-03-02 00:27:49 +08:00 via Android
    @crackidz 有点慢呀感觉
    abcfreedom
        13
    abcfreedom  
    OP
       2024-03-02 00:28:08 +08:00 via Android
    @shinyzhu 太强了
    abcfreedom
        14
    abcfreedom  
    OP
       2024-03-02 00:28:34 +08:00 via Android
    @coinbase 正好我也有太 m1pro ,回头试试
    abcfreedom
        15
    abcfreedom  
    OP
       2024-03-02 00:29:47 +08:00 via Android
    @noahlias 话说 amd 的卡能跑吗,手上有张 amd6900xt
    abcfreedom
        16
    abcfreedom  
    OP
       2024-03-02 00:30:35 +08:00 via Android
    @vvhy 收到
    abcfreedom
        17
    abcfreedom  
    OP
       2024-03-02 00:30:56 +08:00 via Android
    @noahlias 如果用作中英文翻译,哪个模型比较合适呢
    abcfreedom
        18
    abcfreedom  
    OP
       2024-03-02 00:31:41 +08:00 via Android
    @gongquanlin 其实我也不太清楚,只知道这个模型对资源要求比较低,所以想着部署着玩一下
    abcfreedom
        19
    abcfreedom  
    OP
       2024-03-02 00:32:18 +08:00 via Android
    @Fish1024 好嘞收到
    noahlias
        20
    noahlias  
       2024-03-02 09:53:06 +08:00
    @abcfreedom 应该是可以的

    ollama 不过你得自己编译下 issue( https://github.com/ollama/ollama/issues/738)里面找解决方案
    或者你用 llama.cpp https://github.com/ggerganov/llama.cpp
    readme 里面是提到有支持 hipBlAS 的 https://github.com/ggerganov/llama.cpp#hipblas
    gongquanlin
        21
    gongquanlin  
       2024-03-02 11:12:07 +08:00
    @abcfreedom #18 跑了一下 miniCPM-2b ,翻译、总结效果还不错,就是部分回答有点让人捉急哈哈~
    smalltong02
        22
    smalltong02  
       2024-03-02 11:14:30 +08:00
    那是因为 ollama 加载的是 gguf 的量化模型。
    unclemcz
        23
    unclemcz  
       2024-03-02 11:23:34 +08:00 via Android
    @gongquanlin miniCPM 这个模型我在 ollama 官网搜索不到,有具体链接提供吗? 我最近给自己的一个翻译软件增加 ollama 支持,测试用 qwen-4b ,效果很一般,想再找一个翻译效果好一点的。
    abcfreedom
        24
    abcfreedom  
    OP
       2024-03-02 22:47:14 +08:00
    @gongquanlin 强 回头我也试试
    gongquanlin
        25
    gongquanlin  
       2024-03-03 13:33:02 +08:00
    shinyzhu
        26
    shinyzhu  
       2024-03-06 08:29:35 +08:00
    哦哦。原来用 verbose 就可以看到速度了啊。我的 MacBook Pro ( M2 ,8Core+10GPU ,24G 内存):

    ```
    ~ % ollama run gemma:2b --verbose

    total duration: 6.300357083s
    load duration: 896.708µs
    prompt eval count: 13 token(s)
    prompt eval duration: 201.698ms
    prompt eval rate: 64.45 tokens/s
    eval count: 284 token(s)
    eval duration: 6.096544s
    eval rate: 46.58 tokens/s
    ```
    crackidz
        27
    crackidz  
       2024-03-07 09:15:30 +08:00
    @unclemcz https://ollama.com/roger/minicpm
    @abcfreedom 要看你的具体的配置,比如内存,CPU 。AMD 的支持很快会发 pre-release 了,速度据说比 NV 慢一点但是比 CPU 还是快多了
    unclemcz
        28
    unclemcz  
       2024-03-07 09:42:10 +08:00 via Android
    @crackidz 我现在是 8g 的内存,3550h ,跑 qwen:7b ,短句的翻译需要 30s 左右。
    @abcfreedom qwen:4b 的速度快很多,但质量差 7b 太多。如果只是翻译,可以接各大翻译接口,百度腾讯华为都有,也都有免费额度。
    unclemcz
        29
    unclemcz  
       2024-03-07 09:50:32 +08:00 via Android
    @abcfreedom 上楼再补充一下,翻译接口最大的问题是会吃单词,百度腾讯网易都有这个问题,所以如果有合适翻译的大模型,确实是优选。
    abcfreedom
        30
    abcfreedom  
    OP
       2024-03-07 10:19:29 +08:00
    @unclemcz 我找了个 openai 中转的 api ,拿来对接了翻译,感觉还可以
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2886 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:58 · PVG 22:58 · LAX 07:58 · JFK 10:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.