最低成本本地运行 70B 模型， V 友有哪些建议

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 468 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，最新体验英伟达的 70Bllama 感觉不错，打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞，有没有实践过的老哥评价下可行性，就奔着捡垃圾极致性价比来搞

本地运行

70B模型

性价比

15 条回复 • 2024-11-05 17:23:27 +08:00

papersnake

2024 年 11 月 4 日

4 * v100 跑 int8 量化没问题，速度可能会慢一点；占用大约 70GB 模型参数+20GB 的 kv 缓存

penisulaS

2024 年 11 月 4 日

说实话，就算是捡垃圾，4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了

lithiumii

2024 年 11 月 4 日 via Android

最低成本？ cpu 跑呗，搞 128G 内存，跑量化的版本

xye0542

2024 年 11 月 4 日

2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink

liu731

PRO

2024 年 11 月 4 日

直接二手 4090 ，到时候不玩了卖也亏不了多少钱

Hookery

2024 年 11 月 4 日

70B 就不可能低成本。。。
之前也想过低成本搞一套，P40 和 P100 都涨飞天了，而且还需要魔改散热，稳定性是堪忧的。多卡也需要电源，电源成本也跟着上来了。
最低成本直接搞两张 P102 ，单张 200 ，两张 400 ，一共 20G 显存，可以玩 32B 的 4bit 量化。整机成本不破千。

70B 显存需求大概在 40G 作用，最便宜就是两张 2080TI 22G ，两张卡都上 5K 了。

Cusox

2024 年 11 月 4 日

看看 https://github.com/SJTU-IPADS/PowerInfer ，有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ，限制显存可以在单卡上部署，不过好像对 70B 模型优化差点意思

slowgen

2024 年 11 月 4 日

P40 很垃圾的，10 张 P40 加一起速度还没到 M2 Ultra 的 1/3

kuhung

2024 年 11 月 4 日

我在看 mac 的大内存版本，还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio

mmdsun

2024 年 11 月 5 日 via iPhone

魔改显卡，双显卡主机

dafen7

2024 年 11 月 5 日

@kuhung 我看了之前 mac mini 下面的评论，老哥们说带宽不行，还是不如显卡

dafen7

2024 年 11 月 5 日

@Hookery 就是想着除了显卡之外尽量压缩其他成本，目前看了咸鱼几个超微的 4u 准系统都要 2000-3000

dafen7

2024 年 11 月 5 日

@shuimugan macbookpro 能跑 70B 吗，我感觉真搞个 mac 大内存也行，不是说带宽不足吗

Hookery

2024 年 11 月 5 日

大模型不吃 CPU 啊，不一定必须上超微吧，除非你要 4 满速 PCIE 接口，民用主板才没有。

slowgen

2024 年 11 月 5 日

@dafen7 mac book pro 能跑 70B 吗？能
带宽不足吗？不足，所以速度慢
慢多少？带宽是 Ultra 的多少，速度就是 Ultra 的多少，看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素，而且模型越大，带宽瓶颈需求就越大，特别是 70B 这个体量，传输都不够了，算得再快都没用