V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
886106
V2EX  ›  Apple

Studio M4max 128G 是否合适跑大模型

  •  
  •   886106 · 1 天前 via iPhone · 2867 次点击
    看上 M4 的芯片了,128G 适合跑大模型么
    37 条回复    2025-03-18 02:18:46 +08:00
    mumbler
        1
    mumbler  
       1 天前   ❤️ 1
    能跑,很酷,但性价比很低

    目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用
    886106
        2
    886106  
    OP
       1 天前 via iPhone
    @mumbler 你说这硬要上服务器才能跑 8 张卡了
    chiaf
        3
    chiaf  
       1 天前
    你指的训练大模型吧,那不能。

    本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝
    lithiumii
        4
    lithiumii  
       1 天前 via Android
    能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
    noobjalen
        5
    noobjalen  
       1 天前
    我 32g 能跑 9b 大模型,这算大模型吗。 当然是不建议,能跑但慢。
    neteroster
        6
    neteroster  
       1 天前 via Android
    [同时]满足下面几个要求的情况下有优势:
    1. bs=1 (不并发)
    2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况)
    3. 静音与便携
    4. 需要跑较大的模型(很慢但能跑)

    ---

    一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。

    综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。
    killgfat
        7
    killgfat  
       1 天前 via Android
    除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
    hefish
        8
    hefish  
       1 天前
    gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
    liulicaixiao
        9
    liulicaixiao  
       1 天前   ❤️ 4
    个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
    yiios
        10
    yiios  
       1 天前
    @neteroster
    你把我想说的都说完了。
    一个是没有靠谱的并发方案,另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。
    icyalala
        11
    icyalala  
       1 天前
    如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。

    如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。
    ShadowPower
        12
    ShadowPower  
       1 天前
    这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
    实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
    BernieDu
        13
    BernieDu  
       1 天前
    @mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
    azhangbing
        14
    azhangbing  
       1 天前 via iPhone
    充钱用 token 可以到天荒地老
    DICK23
        15
    DICK23  
       1 天前
    我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
    tap91624
        16
    tap91624  
       1 天前
    @BernieDu 2080ti 两两之间支持 nvlink
    ShadowPower
        17
    ShadowPower  
       1 天前
    @DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
    234ygg
        18
    234ygg  
       1 天前
    压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
    BernieDu
        19
    BernieDu  
       1 天前
    @tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧,而且 nvlink1 的带宽也不过 100 GB/s
    Liftman
        20
    Liftman  
       1 天前
    我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

    但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。
    clf
        21
    clf  
       1 天前
    挺适合。

    2080Ti 方案的话,残值低,买到手=亏 70%,还没算额外的电源成本和 8 卡主板等周边配套的成本。

    起码在能耗、性能和省事上来说,M4 Max 很不错。(至少后续没兴趣在本地跑大模型了,也能卖二手,保值率还是挺高的)
    wclebb
        22
    wclebb  
       1 天前 via iPhone
    Mac Studio M2 Max 64G 跑过 70B DS ,能跑。只是找不到实用性价值(都是用 API 和 ChatGPT 聊天)。

    DS 问多了也会把我搞抑郁,不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI (估计 Mac 也能)。

    后面估计可以玩更好玩的玩法,只是现在还没有。
    rogerer
        23
    rogerer  
       22 小时 54 分钟前
    为了考虑要不要在本地跑 LLM 买设备,不如考虑一下这个钱拿去买 token 会不会更好。开源的模型,deepseek qwen llama ,它们的 api 也都不算贵。
    newbeelity
        24
    newbeelity  
       21 小时 1 分钟前
    请教一下 8 张 2080 怎么硬件交火,用什么交火硬件
    @mumbler
    ShadowPower
        25
    ShadowPower  
       20 小时 35 分钟前
    @BernieDu 推理对 PCIe 带宽要求很低,训练的要求倒是很高
    newbeelity
        26
    newbeelity  
       19 小时 29 分钟前
    多张民用显卡叠加跑模型一直是个问题,目前仅有软件方案 exo 等(仍在 beta ),虽然官方出了 nvlink 硬件,但支持的显卡,及数量都是优先的。所以用民用显卡显存堆起来跑大尺寸模型本身就不可行。我给楼主的建议是,mac studio 可行,速度还能接受,每秒 20 个 token 左右
    -- 来自 m3 ultra 512G 统一内存用户
    BernieDu
        27
    BernieDu  
       18 小时 48 分钟前
    @ShadowPower 如果推理不要求带宽那都用内存推理了。。
    ShadowPower
        28
    ShadowPower  
       18 小时 39 分钟前
    @BernieDu
    PCIe 接口在推理的过程中,传输的数据只有用户输入的文本和模型返回的文本(一次一 Token )
    多卡的话,再加上一些层与层之间传输的信息以及一些上下文更新信息,也非常少

    吃的带宽都是 GPU-显存之间的带宽,这部分不走 PCIe 。为什么吃:因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是,这是 GPU 访问自己负责的那部分参数,多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

    如果用 NVIDIA 以前的 SLI 技术,那倒是会有上面说的情况。但跑模型并不采用这种技术方案,AI 工程师不会那么蠢……
    ShadowPower
        29
    ShadowPower  
       18 小时 29 分钟前 via Android
    @BernieDu 我现在用来跑 LLM 的显卡,实际 PCIe 带宽是 7.88GB/s (用的平台太老),显卡的显存带宽是 288GB/s ,跑 5bpw 量化 14B 模型实际有 28 token/s
    BernieDu
        30
    BernieDu  
       18 小时 10 分钟前
    @ShadowPower 14B 5bit 的小模型大概需要 9g 显存,你这用不着交火吧。我自己没试过 pcie 显卡交火跑模型,但是 ds 查的模型并行(场景是模型过大,需拆分到多个 GPU) 前向传播时需频繁传递中间张量(如层间输出)。PCIe 带宽 7.88GB/s 会限制大张量传输。成为推理瓶颈。让我用 nvlink 。(应该不会封号吧)
    ShadowPower
        31
    ShadowPower  
       17 小时 39 分钟前
    @BernieDu
    你用 DeepSeek 的话,那就好办了。
    你应该这么问 DeepSeek:

    ---------------

    这是 LLAMA 模型的尺寸信息:
    'llama3_70b': dict(
    base_model='llama3_8b',
    vocab_size=128256,
    hidden_size=8192,
    intermediate_size=28672,
    num_hidden_layers=80,
    num_attention_heads=64,
    num_key_value_heads=8,
    max_position_embeddings=8192,
    rms_norm_eps=1e-5,
    rope_theta=5e5,
    ),

    双显卡跑 LLAMA 70B 模型,batch_size=1 ,模型拆分到两块显卡上,采用流水线并行。激活值精度为 float16 ,计算生成单个 token 时,两块显卡之间前向传播数据大小。

    -----------------

    它给你算出一个大小,然后,PCIe 4.0 x16 的带宽大约有 32GB/s ,用带宽除以每 token 传输的数据量,就可以算出这个瓶颈会限制 Token/s 到多大了。
    swmjjy
        32
    swmjjy  
       14 小时 28 分钟前
    @BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

    举例, 8 张 3060, Qwen2.5-72B 4bit 量化
    promp prefill: 470token/s
    decode bs=1: 37token/s
    decode 高并发: 430token/s

    (这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)




    swmjjy
        33
    swmjjy  
       14 小时 23 分钟前
    @newbeelity 这并不是什么问题, 主流推理框架全都正式支持至少一种并行方式, 而且都不必选依赖 nvlink 或者对应 GPU 的同等通信方式, exo 仅仅属于在 mac 社区里比较知名的简单山寨实现而已
    newbeelity
        34
    newbeelity  
       12 小时 28 分钟前
    @swmjjy 感谢,马上去试试:)
    BernieDu
        35
    BernieDu  
       7 小时 51 分钟前
    @swmjjy 感谢数据,被 ds 的回答误导了。。
    gigishy
        36
    gigishy  
       4 小时 15 分钟前 via iPhone
    @noobjalen 你保守了……我 m1 的 16g 内存 iMac ,流畅 14b 。32b 明显卡顿,测试了一下,缺内存的原因,不是 m1 的原因。
    gigishy
        37
    gigishy  
       4 小时 12 分钟前 via iPhone
    @liulicaixiao 有一个压倒所有你说的因素的原因:隐私和安全。因为这个缘故,才花五位数买来本地跑模型……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:31 · PVG 06:31 · LAX 15:31 · JFK 18:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.