V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 1 页 / 共 25 页
回复总数  482
1  2  3  4  5  6  7  8  9  10 ... 25  
3 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减
3 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@dongfanga 但是两者的激活参数差不多,速度上差距不大,得具体实测所有题目才好说,我只测了代码能力。而且 qwq-32b 跑起来条件太简单了,搞两张 16-24g 显存的卡,2 张 a770 都可以没什么压力
3 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@dongfanga 可行啊,我玩了一天了,6bit 量化下回答质量和 grok3 差不多
5 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s (开启 KV Cache ),而 deepseek v3 和 r1 的激活参数量都是 37B ,总参数量 671B ,在 512GB 内存上跑 4bit 量化为主,大体上也是 40~45token/s 左右(对比 M2 Ultra 算力和带宽的提升和激活参数变化所得)。
对比 deepseek 现在的官网价格,v3 每百万 token 输出为 8 元,r1 是 16 元,用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本,跑 r1 回本速度快一倍,只需 1193 天。
7 天前
回复了 momowei 创建的主题 计算机 帮忙看看这个 diy 装机配置搞开发怎样
@ifwww 我装过 3 个开发机了,一开始都是想着扩展性,到最后最多也就插个显卡插个机械盘。不如小型化,平时也方便带去公司做个团队测试环境,淘汰了还方便寄给家人。
7 天前
回复了 momowei 创建的主题 计算机 帮忙看看这个 diy 装机配置搞开发怎样
搞个 7945HX 准系统就行了 比如 https://item.jd.com/10122934326058.html ,两千多,16 核 32 线程,功耗低性能强,搞成迷你主机方案还不占地方,再插 2 条 48g 内存,妥妥的小钢炮。
就是找出相关内容然后字符串拼接,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

消耗 token 那是肯定的,所以去年 5 月 deepseek 把价格打到几乎是全行业的 1%,搞得其它几家也跟着降价,不然现在哪有那么多知识库的需求。
什么并发要求?
https://x.com/carrigmat/status/1884244369907278106 6000 美元,用双路 epyc + 24 通道 ddr5 跑 q8 规格,6~8 token/s ,实际功耗不到 400w ,当然随着上下文越大每秒 token 数会下降,而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存,和 23 年年底上海交大那个 PowerInfer 思路很像,充分利用 CPU 和 GPU 的资源,按照上面的 cpu 方案加几块卡就够了。


需求不急的话可以等一波,先用着各种供应商提供的 api ( together.aifireworks.ai 等)
https://docs.openwebui.com/features/ 这个集成了搜索,源码里集成了好几家搜索引擎,免费的话用的是 duckduckgo 的 https://github.com/open-webui/open-webui/blob/2017856791b666fac5f1c2f80a3bc7916439438b/backend/open_webui/retrieval/web/duckduckgo.py#L12 ,在容器里配个 http_proxy/https_proxy 或者丢海外部署就好了。
35 天前
回复了 importmeta 创建的主题 Node.js 吐槽一下 Nest.js 太复杂了
Nestjs 封装是有点过度了,既然是 TypeScript 这种语言加上 Node 的 runtime ,很多东西是可以做减法的。
我用的时候就做了很多减法,比如:
service 全部用 static 函数,就不需要注入了,要 mock 直接 class.method = function(){},要是非 static 的就 class.prototype.method 重新赋值来覆盖;
Providers 直接不用,官方案例简直是神经病连 HttpClient 都封装一层,它以为自己在用.NET 上吗,还不如开个文件在里面定义个常量然后导出,不也是全局唯一的吗;
Guards 也放弃,哪来那么多策略,直接在 Middleware 里简单鉴权就行了,复杂的我宁愿单独写一个 api 网关;
Modules 只拿来做业务模块区分,里面只引入控制器;

现在,我直接换 hono 了,搞个 module 文件夹自己分层就好了
36 天前
回复了 leenhawk2 创建的主题 程序员 安卓 16 支持 Linux 子系统了
连 Linux 子系统都支持了,按这个发展说不定再迭代几个版本就把 Chrome OS 给合并完了,然后放弃 Chrome OS
37 天前
回复了 scienhub 创建的主题 程序员 腾讯云的 nodejs sdk 安装后 85M
@datou 看走眼了,还以为只用了腾讯云的 cos 。要是用 deno 的话在代码目录就可以没有 node_modules 了,眼不见为净。

to 楼主,node 项目我以前用 pkg 打成二进制放容器里的,整个 Docker 镜像压缩后只有 60~70MB 左右,还挺好用
37 天前
回复了 scienhub 创建的主题 程序员 腾讯云的 nodejs sdk 安装后 85M
已经不用 Node 了,现在小项目在选 Deno 和 Bun 。Bun 在 1.2 内置了 S3 和 Postgres 客户端,可以给项目做不少减法 https://bun.sh/blog/bun-v1.2
40 天前
回复了 bwijn 创建的主题 Python scrapy 的 item 队列把内存挤爆
scrapy 出来的时候还没什么 serverless 的概念,都是靠堆机器的方式来增加抓取规模,但是它的 IO 和计算没有分离,必然造成你现在这个局面。
一旦你加入队列来把 IO 和计算分离之后,你会发现你也用不上什么 scrapy 自己的东西了。
除非你的清洗是视频转码之类的众生平等的耗时任务,如果是单纯搞搞字符串之类的,可以使用 cloudflare worker 把计算部分分离出去,甚至把 IO 部分也可以分离出去( IO 等待不计时,deno deploy 也是)。
61 天前
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
@dongfanga 不好说,等产品出来了有评测对比才知道。Mac 跑大模型的劣势就是到目前为止还用不上 NPU ,白白浪费了性能,纯 GPU 在那算,跑激活参数越大的模型越吃亏,72B 就已经很慢了
62 天前
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips GB10 更有看头,跑本地大模型专用,128G 统一内存,3000 美元起售,5 月开卖,不知道国内搞到的成本要多少
63 天前
回复了 passon 创建的主题 美酒与美食 茶叶有没有科技
茶水发霉与否,不是和细菌繁殖条件相关的吗?我做的冷泡茶基本上放冰箱 2 周还能喝,保证容器干净就行。
Cloudflare Workers 连冷启动都没有,而且 IO 等待的耗时不计在内,只算 CPU 时间,比 Serverless 好太多了
迪卡侬山地车 EXPL500 ,重新激发了对运动的喜爱,经常骑出去溜圈,身体健康了很多
1  2  3  4  5  6  7  8  9  10 ... 25  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4357 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 04:07 · PVG 12:07 · LAX 21:07 · JFK 00:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.