也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存,671b q4_k_m ,gpu 和内存都跑满了,10 几个 tokens/s
32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s
如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡
跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。
|  |      1coefu      166 天前 你可以五折出给我,我不嫌弃。🐶 | 
|      2dilidilid      166 天前 本来就那样,一个是 Mac 虽然显存大但是 TOPS 少,真跑大的模型算力上力不从心,另外一个是大部分主流模型都是专门给 CUDA 做优化,很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090 | 
|  |      3F281M6Dh8DXpD1g2      166 天前 via iPhone 671b 你跟 14b 比啊 | 
|  |      4guoguobaba OP @liprais 32b 没看到吗 | 
|      5littlewing      166 天前 M4 是不是会提升很大? | 
|  |      6icyalala      166 天前  1 之前吹的是说这个小的单机上能加载  617b 模型,而其他消费级显卡显存不够,压根跑都跑不起来。 你 amd + 64g 内存跑个 617b 看看呢? | 
|  |      7Awes0me      166 天前  1 那你为什么不跟 32b 比呢 | 
|  |      8yolyzhu      166 天前 本来就不快呀,NV 护城河还是有点含金量的…… | 
|  |      9JensenQian      166 天前 那当然 不然老黄的卡卖给谁啊 | 
|  |      10michaelzxp      166 天前 只是能跑最大模型,但是算力不行,所以没有想的那么好 | 
|  |      11june4      166 天前 @icyalala 之前有个文章,花 3w 组 768G 内存 amd pc 跑 617b Q8 ,CPU 硬跑 7 token/s 。这价格比 mac 少一倍,但速度也慢。 | 
|  |      12felixcode      166 天前 via Android 他们说了你真信啊,谁说的找谁呗 | 
|      13MacsedProtoss      166 天前 via iPhone 现在消费级硬件跑的本地模型就没一个效果够好的 个人使用没有必要本地 ai 意义很小 | 
|      15234ygg      166 天前 哈哈,那帮博主只字不提回答问题的时候吐出第一个字要多久,更不提上下文变长了之后的速度。。 目前综合来说,普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了,但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0 | 
|  |      16zhanying      166 天前 via Android 目前来看,个人本地部署大模型最大的意义就是部署本身,换句话说就是图个折腾的过程😂 | 
|  |      17icyalala      166 天前 @june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。 A100/H100 那些显存都是贼贵的 HBM ,带宽都是几 TB/s ,MacStudio 512GB 带宽也就 800GB/s ,根本比不上 内存方案基本就是 ktransformers ,CPU/GPU 算力足够的时候,同样也是受限于内存带宽 | 
|      18PhDLuffy      166 天前  1 你这语言能力和逻辑表达是怎么回事,说的好像你那破 4060ti 跟 m3 ultra 一个水平 | 
|      19maolon      166 天前 via Android  1 q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢? mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s 而且我也有理由相信你没解内存锁 | 
|  |      20neteroster      166 天前 via Android 本来就是玩具水平,你在期待些什么? Mac 的优势只有一个,那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型,这是因为他的内存带宽高而计算能力相比起来非常非常低,因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ,上下文一长生成速度和 TTFT 更是难看。 | 
|  |      21iamqk      165 天前 mac 就是内存/显存优势 算力不行而已,不如 nv 的旗舰显卡 ps:隔壁也看到了 | 
|      22jfsd2000      165 天前 全方位吊打 nv 的话苹果肯卖你也卖不到啊。 | 
|  |      23moooookey      165 天前 via iPhone 苹果现在的东西,娱乐一下就行了,你可别真当生产力工具啊,对自己好点 | 
|  |      24SakuraYuki      165 天前 别人说的明明是能在这个价位跑 671b 的模型,同价位显卡显存不够跑不起来,可从来没人说过 mac 跑大模型速度快的,毕竟没 cuda 加速,苹果那个 metal 生态没 cuda 好 | 
|  |      25clemente      165 天前 速度不行 但是至少能用啊 | 
|      26fredweili      165 天前 能和消费级显卡比较,就不错了,至少不贵能买的到啊 |