Llama 3.3 70B

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 430 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

在 LM Studio 里也可以下载了。

llama

下载

生成

21 条回复 • 2024-12-11 14:19:50 +08:00

TonyG

2024 年 12 月 7 日

Livid ，好奇你是什么配置跑 70B 的？量化参数是什么？

vfx666

2024 年 12 月 7 日 via iPhone

同问

Livid

MOD

PRO

2024 年 12 月 7 日

@TonyG
@vfx666

2021 年的 M1 Max MBP 64GB 内存。

LM Studio 会自动检测能跑的版本 Q3_K_L：

实际跑起来之后大概能有 3.8 t/s：

Livid

MOD

PRO

2024 年 12 月 7 日

这里有 128G 的 M4 Max 用户么，谁能试试 Q8_0 在 M4 Max 上能有多少 t/s

privil

2024 年 12 月 7 日

groq 已经提供了 llama-3.3-70b-versatile

Livid

MOD

PRO

2024 年 12 月 7 日

也可以从 Hugging Face 体验：

https://huggingface.co/chat/models/meta-llama/Llama-3.3-70B-Instruct

yzding

2024 年 12 月 7 日 via iPad

有 m4 macmini 丐版能用的模型吗

awah

2024 年 12 月 7 日

@Livid #4 M3 Max 128G 跑 Q8_0 大概是 3 token/s, M4 应该不会多很多. Mac 跑 70B 还是太勉强了

Donaldo

2024 年 12 月 7 日

@yzding #7 7b 的

vipshf

2024 年 12 月 7 日

他还是被 9.8 和 9.11 的比较干趴下了，哈哈

mumbler

2024 年 12 月 7 日

超过 10B 的模型在个人电脑上没有实用价值，现在的 7B 模型已经超过 gpt3.5 水平了，明年大概率也会出现 gpt4 水平的 7b

s609926202

2024 年 12 月 7 日

这些模式下载到本地跑，能不能 “微调”

xing7673

2024 年 12 月 7 日

@s609926202 70B 普通家用机器基本不可能微调，7B 都有点难

wantstark

2024 年 12 月 7 日

lora 、qlora 大幅度降低了微调需要的资源；

hertzry

2024 年 12 月 8 日 via iPhone

上午在 Hugging Face 请求模型使用权限被拒 :(

cctrv

2024 年 12 月 8 日

https://imgur.com/a/hLHS2Ii

m2u 128g
5.72 tok/sec • 22 tokens • 2.37s to first token

m4x 按道理相似的性能，或者更快一點點。

APEC

2024 年 12 月 9 日

64G M4 Max 已经在 LM Studio 里跑不动 Q4_K_M 了，后悔没入 128G 的版本，现在真是尴尬啊

APEC

2024 年 12 月 9 日

话说是否有可能将模型文件分片后，再使用 LM Studio 进行加载，然后成功运行？

Donaldo

2024 年 12 月 9 日

@APEC #17 Q4_K_M 才 42G ，没问题的，参考这个文章把分配给 GPU 的内存拉大点。https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/

beginor

2024 年 12 月 11 日

M1 Max 64G 用户，在 `/etc/sysctl.conf` 文件中添加选项 `iogpu.wired_limit_mb=57344` ，这样最多可以分配 56G 内存给显卡用。

用 llama.cpp 可以运行 `llama-3.3-70b-instruct.q4_k_m.gguf` ，不过要限制一下上下文大小，不然还是内存不够，生成速度大概是 4 token / second 。

```
main: server is listening on http://127.0.0.1:8080 - starting the main loop
srv update_slots: all slots are idle
slot launch_slot_: id 0 | task 0 | processing task
slot update_slots: id 0 | task 0 | new prompt, n_ctx_slot = 4096, n_keep = 0, n_prompt_tokens = 26
slot update_slots: id 0 | task 0 | kv cache rm [0, end)
slot update_slots: id 0 | task 0 | prompt processing progress, n_past = 26, n_tokens = 26, progress = 1.000000
slot update_slots: id 0 | task 0 | prompt done, n_past = 26, n_tokens = 26
slot release: id 0 | task 0 | stop processing: n_past = 354, truncated = 0
slot print_timing: id 0 | task 0 |
prompt eval time = 2035.41 ms / 26 tokens ( 78.29 ms per token, 12.77 tokens per second)
eval time = 79112.92 ms / 329 tokens ( 240.46 ms per token, 4.16 tokens per second)
total time = 81148.33 ms / 355 tokens
srv update_slots: all slots are idle
request: POST /v1/chat/completions 127.0.0.1 200
```

beginor

2024 年 12 月 11 日

如果用 LM Studio 运行 mlx 版本的 [Llama-3.3-70B-Instruct-4bit]( https://huggingface.co/mlx-community/Llama-3.3-70B-Instruct-4bit) 可以稍微快一点点，5.x tokens / 秒。