Mac 上有哪些适合本地运行的 llm 呢

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 540 天前的主题，其中的信息可能已经有所发展或是发生改变。

用的是 LM studio ，模型 qwen1.5 、mistral 7b 、gemma 2b 都很流畅，但是想使用 gemma 7b 的时候几乎不可用，CPU 超过 100%，RAM 超过 20GB 。

机器配置：M1 MAX ，32GB

想问下大家，这个配置适合本地运行的模型还有哪些呢？主要用于日常 chat 和总结笔记时使用。

llm

gemma

配置

4 条回复 • 2024-04-01 19:28:57 +08:00

mumbler

2024-04-01 01:59:15 +08:00

本地 LLM 不太适合总结这类任务，因为当前 cpu 推理，prompt 评估时间很长，通俗的说，本地 LLM 阅读 prompt 的速度大约只是生成速度的 2 倍，而 GPU 跑 LLM 可以秒读长 prompt ，GPT4 阅读速度可以达到 2800token/s 。

intel ，amd ，apple 现在都在发力 AI PC ，CPU 推理后面应该会得到优化

sheller

2024-04-01 09:44:14 +08:00

@mumbler 感谢解答，看来还是只能用在线的

SuperMari0

2024-04-01 11:23:14 +08:00

最近在 M2 Mac Mini 上用 ollama 跑的 Qwen-7B 效果还不错, 可以尝试下

sheller

2024-04-01 19:28:57 +08:00

@SuperMari0 我也有在用 qwen1_5-7b-chat-q5_k_m.gguf ，总结 obsidian 里的笔记（插件是 copilot ）还不错