V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  beginor  ›  全部回复第 6 页 / 共 115 页
回复总数  2289
1 ... 2  3  4  5  6  7  8  9  10  11 ... 115  
139 天前
回复了 coderwei 创建的主题 Apple 求推荐一个 mac 的远程工具
有没有服务端不用插显示器的远程么,就像 Windows 的远程桌面那样?
苹果 M 芯片的优势是统一内存,可以将大量的内存做为显存来使用,所以就能够运行比较大的模型。

以 64G 的 M1 Max 为例,默认可以分配 48G 左右的内存做显存使用, 通过调整系统参数, 最大可以分配 56G 内存做显存, 可以运行 Q5 量化的 70b 参数的大模型。

但是 M1 Max 推理的速度并不快。 跑同样的 llama 3 8b 模型的话, 即使是 3060 显卡, 在装好 quda 驱动之后, 推理速度是 M1 Max 的 1.5~2 倍, 而且 M1 推理的精确度似乎也没有 cuda + N 卡高。

手上刚好有台 M1 Max 的 MBP , 还有一台 3060 的台式机, 以上是亲身体验。

如果是日常开发,M1 Max 至少 3 年内斗士性能过剩的, 多数时间都是 E 核在跑,P 核最多跑 1~2 个, 还有 8 个 P 核随时待命。
149 天前
回复了 PepperEgg 创建的主题 macOS macOS 如何通过命令行获取内存使用率
M 芯片的话可以试试 asitop

brew install asitop 或者 pip install asitop
156 天前
回复了 gcl123 创建的主题 MacBook Pro 新 mbp 掉漆也太快了
银色,一直套黑色的外壳用,不过外壳的角已经有裂痕了,不知道机器本体咋样
听说隔壁家的 VMware 零折,一般人我不告诉他的。 🤭
158 天前
回复了 talus 创建的主题 Apple Mac 能耗
brew install asitop 或者 pip install asitop
158 天前
回复了 fengyouming 创建的主题 Apple mac studio 折抵 价格太低了吧。。。。。
不如成立一个拍卖区吧,价高着得。拍下来不买的封号!
162 天前
回复了 kvibert1 创建的主题 Linux 统信 UOS 桌面软件用什么工具开发?
会 WPF 的话可以考虑 Avalonia ,跟 WPF 差不多的很容易上手。 而且已经有著名跨平台应用 Ryujinx 龙神模拟器,可以说是大名鼎鼎了。

不过就是第三方生态差点儿,没有成套的 UI 控件包(比如 Dev Extreme )等。
169 天前
回复了 waino 创建的主题 MacBook Pro 升级 m2 的内存稳定吗?
64G 的 M1 Max 也要将显存调整到 56G 才勉强跑的起来 70b 参数的模型, 一秒钟大概一个 token ,还是老老实实跑 32b 左右的模型吧, 一秒钟 2~3 个 token ,自己玩一下还可以。

折腾 70b 以上的纯属虐待自己的 Mac 。
再来一个带界面的 [QtScrcpy]( https://github.com/barry-ran/QtScrcpy)
但是目前的 npu 在本地跑 ai 大模型时是用不上的,不管是 pytorch 还是 mlx ,还是 llama.cpp
可以配置一个 [importmap]( https://developer.mozilla.org/en-US/docs/Web/HTML/Element/script/type/importmap) ,让浏览器知道你所需要的第三方库在哪里。

顺便晒一篇我的笔记 https://beginor.github.io/2021/08/16/using-es-modules-in-borwser-with-importmaps.html
你当老板的话,你也会这样想的
177 天前
回复了 dog82 创建的主题 程序员 没人说前两天的软考吗?
毕业前就考过了网络工程师的路过,转眼 20 年了,一次也没用到过 😭
@yjhatfdu2 现在 llama.cpp 默认转出来的 gguf 就是 f32 , 以前是 f16 。
@wsbqdyhm 不好意思, 我搞错了,ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags),q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来
@wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3), 这个和原始模型相比,损失比较多,不推荐。

可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型,自己量化, 也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF)

一般推荐 q5_k_m 或 q4_k_m 版本的量化模型, 接近原始模型,如果配置够的话, 更建议运行 f16 版本模型 。

依据自己电脑的配置, 建议的优先级是:f32 > f16 > q5_k_m > q4_k_m > others .

另外我不玩 ollama ,ollama 虽然简单, 却隐藏了很多细节。 我玩的是 llama.cpp , 可以体会到更多的技术细节。

模型需要的内存大小大概就是模型文件的大小,量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型, 当然其它应用还要占用一些内存, 所以只能勉强运行 q4_k_m 的 70b 模型。
@kenvix 也有影响的,70b 的话 q5_k_m 跑不动, 提示超内存,q4_k_m 勉强能跑起来
1 ... 2  3  4  5  6  7  8  9  10  11 ... 115  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1800 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 41ms · UTC 16:29 · PVG 00:29 · LAX 08:29 · JFK 11:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.