本地部署大语言模型哪家强?

babyedi31996 · 2024-10-30T11:36:35Z

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程, 弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种, 最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激, 尤其是配合 tts 语音和 stable diffusion 实时生成人物表情图. 但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费. 你说用 claude chatgpt 那些吧,又没隐私又被警告. 瑟瑟永远是玩家第一生产力阿. 那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头? 能不能用它来运行量化的 llama3-70b 之类的. 或者是本地部署到底什么方案比较好,请教各位大佬

本地部署

大语言模型

隐私

87 replies • 2025-02-21 06:59:42 +08:00

1

mU9vX912XopmAoE1

Oct 30, 2024

这个 rwkv 有没有试过?

https://github.com/josStorer/RWKV-Runner/blob/master/README_ZH.md

2

babyedi31996

OP

Oct 30, 2024

@fulajickhz 不是,这只是个客户端对接,不是本地部署模型阿

3

slowgen

Oct 30, 2024 via Android

没有搞头，带宽太小了。影响大语言模型推理速度首要因素是带宽，目前家用最舒服的还是 M2 Ultra 。你这个预算可以搞 4 个 2080ti 22g 的服务器代替，虽然吵点和费电，但是带宽在那里，跑推理是 m4 的几倍

4

Royal22

Oct 30, 2024

Mini 40B ??? 洗洗睡吧

5

lsearsea

Oct 30, 2024 via Android

1

有这一万七你搞点显卡不好吗😰

6

TonyG

Oct 30, 2024

没有几十万跑不起来的

7

babyedi31996

OP

Oct 30, 2024

@lsearsea 4090 也就 24G 显存,够干啥的唉

8

babyedi31996

OP

Oct 30, 2024

@shuimugan 4 个 2080ti 22g 整个巨物在家,不太合适啊.而且带宽是显卡的那个东西吗?请教下

9

lsearsea

Oct 30, 2024 via Android

@babyedi31996 量化 72b 能跑

10

lsearsea

Oct 30, 2024 via Android

可以先试试 qwen2/2.5 的 32b 看看效果

11

iorilu

Oct 30, 2024

mac 跑 70b 模型速度如何

不可能有 gpu 跑的快把

12

babyedi31996

OP

Oct 30, 2024

@iorilu 快事不可能有 GPU 快,但是起码能打开,而且肯定比 CPU 跑快呀,70b

13

rus4db

Oct 30, 2024

2

量化 ggml + llama.cpp 、vLLM 。

只是图一乐的话，甚至浏览器也能推理。
可以看看我做的小玩具： https://github.com/bd4sur/Nano

14

iorilu

Oct 30, 2024

@babyedi31996 我是想有什么人有需求必须本地跑 70b 的模型呢, 毕竟本地模型再强也不可能有 gpt4 或 claude 的模型强把, 如果是为了训练还说的过去

现在一般大家本地玩玩也就量化过的, 一般 16g 显存都能跑了, 买个 4060ti 16g 版也就 3000 多

但我估计就 mac 这性能训练模型可能也不太可行把, 哪得多久

15

neteroster

Oct 30, 2024 via Android

1

70B M3 Max 之前看的数据 tg 大概只有 4-5 TPS ，而 M4 Pro 内存带宽只有 270G （ M3 Max 300 或 400G ）。这还只是 tg ，你上下文长的话还要忍受特有的超级缓慢 pp ，建议先对速度有个概念。（ tg 指文本生成速度，pp 指提示处理速度）

现在这个时间，70B+ 的模型还是用在线 API 性价比高些，尽管有各种问题但好歹基本都能解决，本地花这么多钱最后还慢的要死。真要本地玩也不建议 Mac

16

hez2010

Oct 30, 2024

1

试试 Phi-3.5-MoE 专家模型？参数 16x3.8B 。Benchmark 甚至跑得比 gpt-4o-mini 还高。
https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

17

LaTero

Oct 30, 2024 via Android

3

玩 silly tavern ，建议用 openrouter ，silly tavern 支持他家的 api ，而且是按量付费，用多少付多少，还能匿名用 claude/gpt 不怕封号，多好，搞什么本地。模型建议 hermes 3 405b （基本是 llama 3 405b 的去审查版）或 command r+（无审查的商用模型，个人感觉效果其实不是很好，但是非英语会比 hermes 好一些。社区微调一般只会英语）。效果真的把那些本地 13b 小模型吊着打，还快。本地搞一堆非常低的量化也就勉勉强强跑个 70b ，速度还不行，而且你本地买两张 24g 的卡能在 openrouter 玩多久……

18

LaTero

Oct 30, 2024

1

刚才去看了下 hermes 的模型卡，fp16 要超过 800GB 的显存，而 fp8“仅需”430GB ，这样的模型，在 openrouter100 万个输入 token 才 1.79 美元……
本地的话最多也就 int4 量化 70B 了，但是效果真的不是很好。最近的 70B 跑分王 qwen2.5 和英伟达的 Nemotron 我都试过，真的就只是跑分王。尤其是 Nemotron ，它高分主要是输出长，不切实际的跑分就喜欢输出长的，然而对人类来说就是啰嗦、废话多。Qwen 经常英语中文乱混，我用英语的时候它喜欢夹几个汉字，我用中文它又整几个英文单词出来了，很无语。这俩还是有审查的，需要找越狱 prompt ，越狱也不是一定管用的。
另外还有两个我个人用的多一点的模型是 WizardLM 和 DolphinLM ，都是基于 Mistral 的 MoE 模型，优点是很便宜。Wizard 有一点点审查，一个简单的系统 prompt 就搞定了，Dolphin 无审查。

19

adwords

Oct 30, 2024

还是直接买 xAi

20

loading

Oct 30, 2024

这么感觉你用途大部分算力用在了生成视频上。

21

babyedi31996

OP

Oct 30, 2024

@rus4db 这位大佬,我之前就是用 gguf 的 13b 量化 5,只能说爆显存之后速度乌龟好惨...

22

babyedi31996

OP

Oct 30, 2024

@adwords 买的有审查,不能好好的瑟瑟

23

babyedi31996

OP

Oct 30, 2024

@loading 没有没有,只是 AI 角色扮演聊天,最多就是 tts 出语音和 sd 生个表情图而已

24

babyedi31996

OP

Oct 30, 2024

@iorilu AI 角色扮演阿,酒馆之类的,用好一点的本地模型,聊起来更真实阿

25

babyedi31996

OP

Oct 30, 2024

@neteroster 感谢佬的回复,如果 70B M3 Max 都只有 4-5t/s,那就完全没必要了,谢谢.
我本地不是为了性价比,主要是隐私和瑟瑟 AI 角色扮演那些玩法

26

babyedi31996

OP

Oct 30, 2024

@hez2010 感谢这位大佬,这个模型需要多大显存可以使用阿?不太理解 16x3.8B 的意思.
比 4o-mini 还高那真的完全够用阿

27

babyedi31996

OP

Oct 30, 2024

@LaTero 感谢回复,但是在线隐私还是有一点担忧阿.openai 和 claude 是不封号了,但是这个 openrouter 会不会审查或者封我的号...

28

babyedi31996

OP

Oct 30, 2024

@LaTero 感谢大佬,长见识了.试试 openrouter 一会

29

slowgen

Oct 30, 2024

10

@babyedi31996 带宽指的是推理介质的带宽，如果你用显卡进行推理，带宽指的就是显卡的带宽；用 Mac 推理，带宽指的就是它那个统一内存架构的带宽；如果你用显卡 + CPU 跑，那么带宽指的就是就是显卡带宽 + 内存带宽（这个是最垃圾的组合，我愿称之为拖后腿）。目前来说苹果最屌的带宽还得是 ultra 系列的，能有 800GB/s ，用苹果跑推理的速度（每一秒可以输出的 token 数量）可以无脑看作和带宽大小是正比关系，M4 Pro 的内存带宽是 273GB/s ，推理速度可以无脑看作只有 ultra 的 1/3 。

本地跑大模型不一定要追求模型的参数量，我高强度用 192GB 的 M2 Ultra 跑推理也有快 1 年了，全网也没几个人这么干的，光是每个月下载新出的模型都要下载几百 G ，以前也追求过大参数的模型，但是无论多强的模型，甚至是 GPT4 ，照样会胡言乱语无中生有给出错误的答案，不要指望一个模型能解决所有问题，所以我现在已经更换方案了，还得是 RAG 靠谱。

RAG 说白了就是在对话后面拼接类似这样的一段话“下面是额外补充的上下文信息-----start{插入一些联网搜索或者数据库里近似搜索和排序后的前几名文章内容再或者是你手工硬塞的文本}----end”。和代码仓库对话也是这样的形式，没啥特别的。因为大语言模型就是根据 prompt 不断计算下一个 token 出现的概率，在对话里强插入上下文就极大提高了相关 token 的权重，也就不怎么会胡言乱语无中生有了。

基于这个思路和你的目的，去找那一些上下文支持足够大的（ 128k 以上）、审查少、特定领域擅长的小模型或者是 MoE 架构的模型（跑起来吃显存较大但是计算 token 时需要的带宽很小）就合适了，量化选个 4bit 就行了（反正有 RAG 强干预，损失可以忽略不计）。再或者等 Mamba 架构的模型再出来多一点，这个架构的模型开再多的上下文也不会让内存暴涨而且推理速度也不会变慢。

到了这里就会发现 64G 真的太小了，我之前测试用 Phi-3 Medium （ 14B 的模型）开 128K 上下文直接塞整个项目进去换语言重构（类比直接塞一本瑟瑟小说进去续写仿写），光显存就要吃 100 多 G 了。哦，目前我测试下来搞瑟瑟最强的还得是 c4ai-command-r-plus 这个 104B 的模型（ 8bit 量化下速度大概是 5token/s ），显存占用也要 100G 左右。

所以 Mac 跑大语言模型推理，只有 Ultra 系列的大带宽 + 大内存这样的顶配合适，而且跑相同参数量的模型，速度基本上是多张 2080ti 22g 组成相同显存的服务器跑推理速度的 1/3 ~ 1/2 ，当然优点也非常明显，很省电很不占空间，甚至还能通过雷电口串联 4 个 Mac Studio 来跑分布式推理，可以跑更大的模型。

如果这都拦不住你要买 64G 的 M4 ，那你就用 lmstudio 吧，它最近的更新集成了 mlx 框架，也就是 M 系列 Mac 跑推理的优化方案，mlx 迭代了一年现在也稳定了，每个版本也会稍微提升一下性能让推理速度加快。

30

babyedi31996

OP

Oct 30, 2024

@shuimugan "如果你用显卡 + CPU 跑，那么带宽指的就是就是显卡带宽 + 内存带宽（这个是最垃圾的组合，我愿称之为拖后腿）"
这句说得太对了,本来量化 13b 还有 4~5t/s 的.gguf 在爆显存之后,直接蜗牛...什么玩的心情都没了.

太专业了,感谢,受益匪浅.

31

babyedi31996

OP

Oct 30, 2024

@shuimugan "所以 Mac 跑大语言模型推理，只有 Ultra 系列的大带宽 + 大内存这样的顶配合适，而且跑相同参数量的模型，速度基本上是多张 2080ti 22g 组成相同显存的服务器跑推理速度的 1/3 ~ 1/2 ，当然优点也非常明显，很省电很不占空间，甚至还能通过雷电口串联 4 个 Mac Studio 来跑分布式推理，可以跑更大的模型。"

就凭大佬您的经验,以上这个优点就秒杀自己组建 PC 了.
2080ti 22G 都是魔改卡,稳定性和质量都太不稳定了,后期维护/耗电/噪音/空间占用的等等耗费的精力远超省下来的价值.
这套机器不玩了之后只能卖废铁,但是 Ultra 系列随便卖都有人要

32

jeeyong

Oct 30, 2024

@iorilu 朋友帮着跑的, qwen2.572B, 8+ token/s

33

slowgen

Oct 30, 2024

@babyedi31996 是的，我也是反复对比计算衡量过后，才直接上了顶配的 Mac Studio ，有 apple care 加持可以大胆拿来高强度推理，开箱即用很省心，电费也省下不少，还很安静

34

babyedi31996

OP

Oct 30, 2024

@shuimugan 教育优惠顶配芯片的 192G M2 Mac Studio 大概 47000.要不要等等 M4 的新款?

35

halida

Oct 31, 2024

@babyedi31996 好像很快就要出了？那么有钱为了玩这个花几万块？

36

babyedi31996

OP

Oct 31, 2024

@halida 尝鲜嘛,就像 30 年前能花 5000 买个人 PC 的那些人一样~

37

halida

Oct 31, 2024

@babyedi31996 先租一个网上服务器用用几天看看效果吧。

38

slowgen

Oct 31, 2024

@babyedi31996 我当时是买官方翻新的，不到 4.5w 。现在肯定不买，按刚出的 M4 Max 内存带宽推断 M4 Ultra 内存带宽应该能超过 1000GB/s 了，跑推理的速度比 M2 Ultra 要快 1/4 ，不急的话还可以等官方翻新 + 员工优惠叠加更便宜。教育优惠貌似不能在 studio 上使用

39

qiniu2025

Oct 31, 2024

1

目前最简单的方案是访问 flashai.com.cn,下载一个模型包,一键就能在 win 和 mac 上运行本地大模型,图形界面,自带知识库和文档翻译

16G 内存可以跑 gemma2 9B,qwen2.5 7B

40

LaTero

Oct 31, 2024 via Android

@shuimugan Command R+居然是 open weights ！用了这么久我都不知道，他们官网也没写

41

LaTero

Oct 31, 2024 via Android

1

@shuimugan 不过个人感觉 hermes 3 405b 还是强不少的，“事实”这种东西确实不管多强的模型都爱扯淡，但大的模型还体现在“智商”高，比如你编了一些物品/概念/机制然后要 AI 也来编几个，区别就打了。瑟瑟应用在这也没法发，就只能游戏举个例子，hermes 能像模像样地编出有配合和复杂机制的 rogue like 游戏物品，而 command r+就只能编出“攻击力+5”这种没什么意思的。

回楼主：隐私方面的话，你可以去看他们的 tos 和隐私政策，都是很友好的，没有额外审查（“额外”指除去模型自带的或提供商要求的。比如 claude 会要求他们审查，但不会比 claude 本身的审查更多，而且 claude 还有 self-moderated 版本，就是由 claude 的模型自己来做，比直接用 claude 网页版都更少审查），默认也不会记录你写了什么。你可以主动开启匿名记录并获取 1%的折扣，但是这是完全可选的。你甚至可以用一次性邮箱注册+加密货币支付。至于封号，从他们 discord 记录和网站上的统计，拿这家做瑟瑟的是很多的。而且我就这么和你说吧，如果我写的东西都不会被封，你也不需要担心……而速度快（ command r+ 60 token/s ）选项多是实打实的。

42

yshtcn

Oct 31, 2024

目前本地大模型我觉得最大的作用就是做一些简单的判断或者翻译。
我目前用 3060 跑 7b 的 qwen2.5 效果最好。

所以我也很想知道统一架构能不能在可用的范围内跑更大的模型

43

NGGTI

PRO

Oct 31, 2024

没必要了，现在国内的大模型都白菜价啦，几百万 toekn 才几块

44

slowgen

Oct 31, 2024

@LaTero 是的，更多的优质数据训练出来的模型就是底大一级压死人，roll 到好的回答的几率高很多。但是大的模型对硬件的要求也很高，本地难部署，期待未来会有个更好的架构，基础模型是个智商和学习能力都很强的白纸，然后选择外挂要用到的知识库进行对话，那样就爽了。

45

WuDiHaiTai

Oct 31, 2024

为何不先用一百块租两天 4090 云电脑体验一下先呢，我当年就是这么玩的，为了学校比赛搞了两天，最后觉得还是没啥意思。花大钱之前先租用体验一下再决定我觉得是最合理的。

46

mU9vX912XopmAoE1

Oct 31, 2024

1

@babyedi31996 这个不是吗？模型不是在本地

在 RWKV runner 的“模型”版块，可以筛选并下载 RWKV 模型。

https://rwkv.cn/RWKV-Runner/Simple-Usage#rwkv-runner-%E4%B8%8B%E8%BD%BD%E9%BB%98%E8%AE%A4

还有这个 Ai00

https://rwkv.cn/ai00/Simple-Usage#%E4%B8%8B%E8%BD%BD%E8%BD%AC%E6%8D%A2-rwkv-%E6%A8%A1%E5%9E%8B

https://rwkv.cn/docs

微软的 office 装了这个 rwkv ，具体使用功能未知

https://blog.rwkv.com/p/rwkvcpp-shipping-to-half-a-billion

47

mU9vX912XopmAoE1

Oct 31, 2024

1

@babyedi31996 B 站上有人跑了 RWKV6-14b AMD 的核心显卡，输出 5-9 tokens/s ，4060 独显。int 8 也是 6 tokens/s ，NF4 18 tokens/s

看起来挺快 https://www.bilibili.com/video/BV1Qd48ecEAA

48

Rehtt

Oct 31, 2024 via Android

租个云 gpu 服务器

49

cowcomic

Oct 31, 2024

1

要看你干啥
要是普通玩玩，都行
想真正作为生产力，10B 以下不推荐，连 json 都无法稳定生成
30B 左右的目前没有特别好的，可以等零一万物后续发布的，之前他们发布的 34B 模型算是比较强的了，而且他们家最近发布的 yi-ligntning 这个模型巨牛，这让我对他们后续开源的比较期待
70B 左右的就推荐 qwen2.5-72B ，目前在这个量级下没啥对手
在往上就推荐 deepseek2.5 的 236B 的模型，感觉效果比 llama405B 的模型效果还要好

50

babyedi31996

OP

Oct 31, 2024

@fulajickhz 长见识了,感谢这位佬友.我去看看学习下.

51

babyedi31996

OP

Oct 31, 2024

@yshtcn 是可以的,我看林亦在 b 站的视频,他是用 120G 统一内存的 Mac Studio 跑 120b 量化模型.好像也有 4-5t/s 没记错的话.

52

babyedi31996

OP

Oct 31, 2024

@shuimugan 官翻+员工优惠在哪里可以买到?

53

babyedi31996

OP

Oct 31, 2024

@LaTero 感谢你的经验分享,"如果我写的东西都不会被封，你也不需要担心……而速度快（ command r+ 60 token/s ）选项多是实打实的。"我懂这句的含金量了.哈哈

54

babyedi31996

OP

Oct 31, 2024

@NGGTI api 是不贵,但是审查和隐私问题阿

55

babyedi31996

OP

Oct 31, 2024

@WuDiHaiTai 4090 也才 24G 阿,最多就是玩下 20b 了

56

guiyun

Oct 31, 2024

ollama + openwebui + qwen2.5

阿里的通义千问 2.5 的开源版 https://qwen.readthedocs.io/zh-cn/latest/index.html
我自己用的是 7b 的模型，显卡用的特斯拉 P4 (8G 显存)
用起来感觉还行

57

Hookery

Oct 31, 2024

qwen2.5 72B, 4bt quant 估计 40G 显存吧.MAC 跑太慢了，直接双卡 2080TI 魔改 22G 的，一共 44G 够你随便折腾了，整机下来估计不到 6K ，电源买好点就行。

58

babyedi31996

OP

Oct 31, 2024

@guiyun 7b 效果如何?

59

babyedi31996

OP

Oct 31, 2024

@Hookery 好多佬友都推荐 qwen,这个模型效果好?

60

guiyun

Oct 31, 2024

@babyedi31996 我感觉还行。和 3 差不多。已经比较接近 3.5 了

61

guiyun

Oct 31, 2024

@babyedi31996 精度更高效果会好些吧，而且生成速度不错。我的显卡 p4 。这么差的计算卡速度都不慢

62

sworld233

Oct 31, 2024

本地我体验过来，效果最好的两个模型：谷歌的 Gemma2 和阿里的 Qwen2.5 ，huggingface 上面还有微调版本，可以加强某方面的能力。
7B 以下的模型几乎都不可用，Gemma2 9B 是我能接受的效果下限，Qwen 2.5 32B 或 72B 或许是一个大显存不错的选择

63

Hookery

Oct 31, 2024

@babyedi31996 比较新啊，开源模型有 RANK 的，可以搜一下

64

dafen7

Oct 31, 2024

nvidia 的那个 llama70B 怎么样我试了几个问题还不错

65

hldnpqzzy

Oct 31, 2024

自己部署过 llama 、chatglm3-6b 、qwen2-7B
体验是千问比较好好用
70B 别想了你显存不够的

66

hao7Chen

Oct 31, 2024

我觉得 MiniCPM 不错

67

JayZXu

Oct 31, 2024

真要体验角色卡，还是付费买 API 用 claude 或者 Llama 3.1 405B 比较靠谱，毕竟大故事背景的，后期单次请求都要几十 WToken ，个人自部署的话显存根本不够用

68

shm7

Oct 31, 2024

这种东西要 llamafile + 大大大的显卡
另外“对接酒馆玩卡片 AI 人” 有关键字吗？

69

yavdein

Oct 31, 2024

同求酒馆玩卡片 AI 人的哔哩哔哩视频

70

WorldlineChanger

Oct 31, 2024

@shm7 SillyTavern 项目，卡片为玩家自制设定，文本以图片格式存储就是角色卡了，发布渠道详见社区

71

Mirror998

Oct 31, 2024

同求酒馆玩卡片 AI 人的哔哩哔哩视频

72

Latin

Oct 31, 2024

国内用还得是 Qwen

73

brando

Oct 31, 2024

不部署，我这显卡玩游戏，都是花钱买服务用。

74

lslqtz

Oct 31, 2024

1

M1 Pro 试过 14b q4 模型推理, 大概 12-15 token/s. 7b q6 大概可以做到 20 token/s. 输出的速度还是比较快的.

75

lslqtz

Oct 31, 2024

软件的话主要 rwkv-runner 或者 ollama

76

lslqtz

Oct 31, 2024

@JayZXu 我记得 DuckDuckGo 有免费 AI 包括这几个模型, 不过参数量可能有些小. 我本地部署大模型的需求是希望输出一些 Uncensored 内容.

77

lslqtz

Oct 31, 2024

@hldnpqzzy 64G RAM 的话降低量化精度应该还是可以跑的, 苹果的机器 GPU 共用 RAM, 而且似乎没有访问限制.

78

lslqtz

Oct 31, 2024

1

Mac 跑大模型的好处在于显存成本相对较低, 坏处是 GPU 可能偏差一些. 当参数超出一定规模后, 连苹果的金子内存可能都会有一点性价比...

79

supemaomao

Oct 31, 2024 via Android

最近想学习本地部署模型做聊天测试。想请教 op 和楼上各位大佬，第一次接触这个的前提下，有什么关键概念需要先学习吗？整个流程的大致思路应该是怎样呢？感恩😁😁

80

babyedi31996

OP

Oct 31, 2024 via iPhone

@supemaomao 没，跟视频教程一步一步很简单。最麻烦就是弄 cuda

81

charl08242

Nov 1, 2024

ollama + enchanted + llama3.2/deepseek-coder:6.7b

82

Leon6868

Nov 1, 2024

@lsearsea #5 v100 四卡

83

sunnysab

Nov 1, 2024

跟个楼，有没有人遇到这种情况？用 CPU 跑的，运行部分模型时，回答得....呃，像指令生成。

$ ollama run phi3:mini-128k "你是我的个人助理，需要和我对话。每次你需要回答我你想说的话。"
为什么我们必须交流？没有合适的方式来进行交流可能会导致沟通失败。尤其是在工作环�staticLayouten 上，清晰的沟通能帮助我们更好地理解任务，提高
效率。此外，交流还可以增强我们之间的信任和相互支持的网络。

$ ollama run phi3 "你是我的个人助理，需要和我对话。每次你需要回答我你想说的话。"
好的，作为你的个人助理，我现在就可以开始这样对话了。请问你希望我告诉什么？

84

supemaomao

Nov 1, 2024

@babyedi31996 op 参考了那些视频教程啊，能不能推荐一下 😊

85

babyedi31996

OP

Nov 1, 2024

@supemaomao 在阿 B 搜酒馆就有了

86

halida

Nov 10, 2024

@babyedi31996 对了，没找到震撼的视频，感觉没啥意思啊。

87

babyedi31996

OP

Feb 21, 2025

@halida 要配合 live2D 和 TTS,这样才带劲