V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ChipWat
V2EX  ›  Local LLM

mac mini 24g 大模型推理怎么样

  •  
  •   ChipWat · 137 天前 · 4960 次点击
    这是一个创建于 137 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景: 之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

    有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 mbp 比较卡顿(目测 3token/秒)。

    问题:

    准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

    27 条回复    2024-08-14 21:51:51 +08:00
    unidotnet
        1
    unidotnet  
       137 天前
    24G 算了,64G 路过表示 14b ,int4 的话,占 40G 内存左右,自己算算吧。
    zmxnv123
        2
    zmxnv123  
       137 天前
    刚入了台 24g 的 mini ,还没测
    neteroster
        3
    neteroster  
       137 天前
    @unidotnet #1
    14B 4 位怎么可能 40G ,bf16 不加上下文都没这么大
    ChipWat
        4
    ChipWat  
    OP
       137 天前
    @zmxnv123 #2 求帮忙测测,其它模型也行,给个参考
    zmxnv123
        5
    zmxnv123  
       137 天前
    @ChipWat 怎么测,留你 tg 私聊
    ChipWat
        6
    ChipWat  
    OP
       137 天前
    @unidotnet #1 我帖子里使用 Qwen1.5 parameters:14.2B quantization:Q4_0 文件大小:8.2GB 测的。老哥是不是还有其它应用,macos 系统策略是尽可能多的使用内存吧。
    shuimugan
        7
    shuimugan  
       137 天前   ❤️ 2
    大模型跑推理速度首先取决于带宽,带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾,只有 ultra 才值得跑大模型。
    速度一览: https://github.com/ggerganov/llama.cpp/discussions/4167
    简单粗暴的推理速度公式计算就是:同样的量化,14B 速度不到 7B 的 1/2 ,70B 的速度不到 7B 的 1/10
    heyjei
        8
    heyjei  
       137 天前
    在 mac 上面,你们是怎么跑大模型的?用 ollama 吗?
    wangshushu
        9
    wangshushu  
       137 天前 via Android
    AMD 7840hs ,32G 内存,分配 8G 显存,跑 14B 能用的状态,所以 24G 跑 14B 应该问题不大,7B 很轻松了
    Attenton
        10
    Attenton  
       137 天前
    @unidotnet 14b 即使是 fp16 也只是大概 28G 左右,int4 怎么可能要 40G
    alexmy
        11
    alexmy  
       137 天前
    2018 16G mbp 还在服役中,也想换个,瞧瞧 m4 出来后什么情况。
    graetdk
        12
    graetdk  
       137 天前
    18G 的 M3 ,ollama 跑所有的 10B 以下的模型都很爽,而且感觉够用
    mumbler
        13
    mumbler  
       137 天前
    gemma2 9B 能打 qwen1.5 110B ,M 芯片下能跑到 20+token 的速度,且中文支持很好

    可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包,支持 mac ,自带 ollama+图形界面+知识库
    234ygg
        14
    234ygg  
       137 天前 via iPhone
    gemma2 9b 勉强能跑的水平吧?但效果很差,满嘴胡言乱语 也就仅适合做做翻译。。
    效果应该比我 4090 好点,4090 跑这玩意功耗 250W 简直爆炸,最烦的是电感在那丝丝叫。
    做翻译那还不如直接用 gpt4o ,四舍五入不要钱
    yinmin
        15
    yinmin  
       137 天前 via iPhone
    个人在本地部署跑 9b 、14b 实用价值不大,也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计(个人使用),功能远超开源小模型。

    目前企业(尤其是涉密单位)在内网部署小模型,做些文字审查、文字格式提炼的专项业务比较实用。
    bugcreator
        16
    bugcreator  
       137 天前 via iPhone
    32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明
    ZiM77FAp328moIuB
        17
    ZiM77FAp328moIuB  
       137 天前 via iPhone
    最近在纠结 买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块)
    murmur
        18
    murmur  
       137 天前
    如果没有研究或者折腾的打算,买付费商业大模型更划算
    kzzhr
        19
    kzzhr  
       137 天前 via Android
    m 几呀? 3t/s 感觉像是没走 GPU ,可以看下监控
    lairdnote
        20
    lairdnote  
       136 天前
    macbook. 32G. 跑 gemma2b 还可以
    weixind
        21
    weixind  
       136 天前
    @jwwwii 秋季发布会会发 m4 的 mac mini 吧。
    xing7673
        22
    xing7673  
       136 天前
    @unidotnet llm 推理内存很好算,q4 约等于当前参数/2=内存,比如 14b 应该是 7g 内存左右。
    以此类推 q8 14b=14g
    f16 14b=28g
    还需要加一些推理机制内存,不过大抵可以这么推算。
    建议先自己运行检查一遍
    wingerwwang
        23
    wingerwwang  
       136 天前 via iPhone   ❤️ 1
    m1max 32g 跑 llama3.1 7B 效果不错,6g 内存上下。效果比我试过的其他几个 13B 都要好。
    beyondsoft
        24
    beyondsoft  
       136 天前
    建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s
    8355
        25
    8355  
       136 天前
    只能跑小模型吧。。大模型好像要内存拉满了
    unidotnet
        26
    unidotnet  
       134 天前
    @xing7673
    @neteroster
    @ChipWat
    @Attenton

    计算模型要多少内存没问题,我是个人使用经验。但 mac 共享内存,总不见得啥别的系统开销都不要吧,纯命令行裸写一堆 json 去交互。。。 跑模型把别的应用都关了就没啥实用价值。再多做点,开始 embed , 比如跑点 neo4j 什么的是吧,界面要有个吧,跑个 docker ,web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理,GPU full ,内存虽然 64G 没用满,但是基本在 40 几 G , 除非 pumas 命令显示不正确。
    xing7673
        27
    xing7673  
       134 天前
    @unidotnet #26 你这回复。。。。。没必要
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5022 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:14 · PVG 09:14 · LAX 17:14 · JFK 20:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.