V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Ayahuasec  ›  全部回复第 1 页 / 共 12 页
回复总数  235
1  2  3  4  5  6  7  8  9  10 ... 12  
手头在用 2080ti 22g 跑,32b q4_k_s 性能大概是 prompt_token/s: 475.37, response_token/s: 23.82
qwen2.5-coder-32b 的输出感觉和 qwen2.5-32b 差不太多,之前耍 qwen2.5 已经觉得有很高的可用性了
有损压缩后的知识库
之前用过一段时间 poco f4 ,其实就是港版的红米 k40s ,用的 MIUI14 国际版。可以装国内的应用商店,把国行应用商店的 apk 提取出来装上就行,银行 app 基本都没问题。

不过这些银行 app 其实找个比如酷安这样的三方商店也能找得到,更新的时候签名验证能过就行。
85 天前
回复了 getadoggie 创建的主题 OpenAI 为什么 GPT 连算数也会算错呢?
用 OpenWebui 跑的 qwen2.5 14b ,启用计算器工具,看起来就能算对了:

根据提供的上下文,这些数字相加的和是 64 。所以答案是 64 。

要让语言模型做准确的计算,还是得给一个计算器让它按🤣
openwrt 那个,之前整过一个野路子:主机上把路由器固件的根分区解包出来,然后用 chroot 和 qemu-static 直接进入这个根分区,opkg 装 gcc ,源码放进去,编译需要的软件。最后把编译产物拷贝到路由器上,一般直接就能跑。

这个操作的优点是不用折腾交叉编译环境,有的时候折腾交叉编译环境都要搞一天,或者有些固件不太好找配套的编译环境。

缺点就是主机模拟其他架构的程序,跑编译很慢,只适合偶尔用。
推荐一个这个

https://apps.apple.com/us/app/ti-nspire-cas/id545351700

以前高中开始一直用到本科毕业,就是价格有点小贵
TP 的家用产品稳定性挺好,有一台 WDR4310 用了可能有六七年了到现在还很稳定。5 口的千兆交换机当时干到只有几十块的时候买了一台,到现在也五六年了没出过问题。
但是感觉 TP 企业级交换机有点不太行,用过一次 48 口的非管理型千兆交换机,当时部署完测试的时候各种丢包断流,最后一路排查到只插 1 台台式机和 1 台服务器,都会 ping 丢包和长达几十秒的断流,多次更换网口也是一样,而台式机和服务器直连是正常的。最后申请退掉这台交换机,换了个其他牌子的才把内网搞定。
152 天前
回复了 cwek 创建的主题 Linux 一个关于 md 和 lvm 的问题
刚格式化完的话,可能是 ext4 的 lazy init 导致的,以前有碰到过一次这个问题,导致几块硬盘一直不休眠。印象里是 mkfs.ext4 加一个啥参数可以立即把初始化数据写完的,而不是慢慢写。
@zzz22333 是的。但是至少虚拟系统是可以跑在带有硬件支持的 arm64 虚拟化环境下的,跑起来会比直接模拟整个 x86 虚拟机来得快一些。
可以试试装 arm 版的 linux 虚拟机,然后上 qemu-binfmt 跑 x86 的可执行程序?

之前这么干过一次,在 arm 板子上跑只提供 x86 二进制的程序,效果还行。这样搞的话系统还是 arm 的,只是用户态要走 x86 转译,效率比直接虚拟化整个 x86 系统会高一点。
@godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。

虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。
用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ,卸载了 20 层到 GPU 上,把 context 限制在 2048 的话,跑 q4km 量化的 14b 模型,日志文件里记录的一次速度如下:
llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second)
llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second)

有 GPU 加速的话 Prompt Eval 的速度会非常快,基本上发出几百个字的文本给模型以后,马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右,体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复( 500 字可能要等半分钟的样子)。

但是 RTX4050 的显存比较小,如果要开启比较大的 context 的话,就只能往显存上放更少的层,模型的输出速度就会慢下来。不过我感觉可用性还是挺好的,至少出门在动车上的时候连不上网就可以直接问本地模型了。
“研究生+要解决实际问题” 看到这两个条件,我感觉可以了解下 MatLab ?学校没买授权也不想掏钱买学生版的话,可以用开源的 Octave 平替。

MatLab 的文档很全,学过 Python 的话上手也应该很快,而且有问题也可以问 AI 。比如如果需要数据支撑或者论证观点的时候,就可以问 AI 需要什么数学工具或方法,然后用 MatLab 实现,以及可以输出合理的图可以放进论文里之类的。感觉可能对 op 的主业会比较有帮助。
304 天前
回复了 wxd21020 创建的主题 Local LLM 配置小主机跑大模型
我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ,机器装了根 32G 的内存,效果还可以,就是速度大概只有 2-3 tokens/s ,而且跑的时候风扇狂转
304 天前
回复了 857681664 创建的主题 旅行 2024 春节厦门游记
以前听同学说厦门应该中秋去,中秋比较热闹,那边过节能过上一个月
我记得是命令 nvidia-smi -pl 10 就能设定限制功耗在 10W ,可以按自己的卡调一调,但是这只是软件限制,实际跑起来还是有可能超过设定值。以前测试是可以略微降低一点点待机功耗,但是台式机的话好像意义不大,笔记本可以在独显闲置的时候挤出来点电池续航时间。
4060ti 16G 已经能跑不少东西了

预算再往下还有条 Tesla P100 16G 的野路子
2023-11-01 15:46:59 +08:00
回复了 flypei 创建的主题 VPS 阿里云 ECS 2C2G 3M, 99/年,已入手
本来下单以后还觉得挺便宜的,然后发现阿里云的 IPv6 还要额外开通,1Mbps 是 0.96 元/天。国外 VPS 基本上 IPv6 都直接送的,到阿里云这要额外收费了…
2023-10-09 20:42:10 +08:00
回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
@allmightbe #18 修一个上一个回复(#19 )的 bug ,看到你这张图我想起来了,BL=8 的时候列地址的低 3 位也是不用的,保持为 0 。列地址一般是 10 bits ,上面这个例子其实应该是{row[15:0], column[9:3], bank_addr[2:0], 6'h0},或者也可以说是{row[15:0], column[9:3], bank_addr[2:0], column[2:0], 3'h0}。
1  2  3  4  5  6  7  8  9  10 ... 12  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1006 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 21:07 · PVG 05:07 · LAX 13:07 · JFK 16:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.