用的是 LM studio ,模型 qwen1.5 、mistral 7b 、gemma 2b 都很流畅,但是想使用 gemma 7b 的时候几乎不可用,CPU 超过 100%,RAM 超过 20GB 。
机器配置:M1 MAX ,32GB
想问下大家,这个配置适合本地运行的模型还有哪些呢?主要用于日常 chat 和总结笔记时使用。
1
mumbler 261 天前 3
本地 LLM 不太适合总结这类任务,因为当前 cpu 推理,prompt 评估时间很长,通俗的说,本地 LLM 阅读 prompt 的速度大约只是生成速度的 2 倍,而 GPU 跑 LLM 可以秒读长 prompt ,GPT4 阅读速度可以达到 2800token/s 。
intel ,amd ,apple 现在都在发力 AI PC ,CPU 推理后面应该会得到优化 |
3
SuperMari0 261 天前
最近在 M2 Mac Mini 上用 ollama 跑的 Qwen-7B 效果还不错, 可以尝试下
|
4
sheller OP @SuperMari0 我也有在用 qwen1_5-7b-chat-q5_k_m.gguf ,总结 obsidian 里的笔记(插件是 copilot )还不错
|