GPLer's recent timeline updates
GPLer

GPLer

V2EX member #353984, joined on 2018-10-05 16:11:10 +08:00
Today's activity rank 15271
GPLer's recent replies
“专业本科起点专科学习,修完教学计划规定的全部课程,成绩合格,准许毕业“
毫无违和感
4 days ago
Replied to a topic by yzw7489757 Cursor 如果 Xspace 收购成功,应该叫什么
xcodespace 或 codespacex
开 1m 上下文,提示词要求任务完成之前不要暂停,额度到了不触发压缩已有任务会继续跑。
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@GPLer 另外因为目前看下来还是稠密模型能力强,所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ,跑 27B 模型速度太慢没法用,苹果只是单纯力大砖飞+高性价比所以才写上去了。
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@akadanjuan101 可以的
gemma4 31b 没有官方量化,我还在找合适的使用方式
qwopus 我最近在试,这个因为是非官方的我没写,确实忘了😂
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@Enivel FTS 一开始没反应过来,查了下这不就是双路召回的其中一路吗,都 2026 年了,早就标配了。
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@akadanjuan101 所以你 40g 显存目前用啥模型啊
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@akadanjuan101 但是这种现在没有全新的了,容易买到矿,本身也是魔改卡,质保也是个问题,所以我说了有丐的方案但是不推荐 😂
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@Lykos 我自己有一张 3090 24g ,35b 和 27b Q4 用 Ollama 勉强能跑,但是上下文开不高,还是推荐 5090 32g 或 4090 48g ,另外 mac m5 max 64g 版本也是不错的选择,算下来整机成本大概 3w ~ 4w 左右,再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ,但是 qwen 官方量化的 q4 有问题,权重和 fp8 一样大,只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型,48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文,非代码类任务用用还行。

---

另外如果不要求长上下文的话,27b 模型 16g + gguf 极限量化应该也能跑,35b 模型内存+显存混合使用应该也能跑,不过我没试过,所以不做推荐

---

丐的方案也有,比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ,但是这些方案要么太老要么功耗太高又没质保,并且我没试过,所以就不推荐了。
13 days ago
Replied to a topic by archxm 程序员 RAG 难以让人满意啊
@GPLer 另外 目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ,如果要测试最好在这三个里选,测试下来稠密模型效果比激活参数小的 MoE 模型好很多。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2707 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 14:56 · PVG 22:56 · LAX 07:56 · JFK 10:56
♥ Do have faith in what you're doing.