coefu

V2EX member #616381, joined on 2023-02-28 17:15:35 +08:00

Today's activity rank 6155

coefu 提问技术话题好玩工作信息交易信息城市相关

Per coefu's settings, the topics list is hidden

Deals info, including closed deals, is not hidden

coefu's recent replies

43 mins ago

Replied to a topic by 123128xyz › 程序员 › 来自镇上的我，不知道什么是网络公司。

接了宽带可以联到 Internet 的，就是所谓的 “网络公司”。就这么简单纯粹。

5h 2m ago

Replied to a topic by metaclass › 程序员 › 开源一个自己写的项目: UFO, Unified Fleet Orchestrator / 统一舰队编排引擎

且不说真实力如何，你这个取名的水平，高过他们很多人。

5h 13m ago

Replied to a topic by shendaowu › 程序员 › 哪些因素会导致人低估大语言模型？

大部分不是这个领域的人的高估低估都是外行的八卦。

领域的发展也不会因为外行的高估低估有什么改变，因为能做出改变的不是这些人。

22h 47m ago

Replied to a topic by zf2187 › 职场话题 › 创业三个月，我进入了创业的倦怠期

“有时候你根本都不知道问题出在了哪里，你甚至都不知道自己是哪里做错了。”

“我们的产品的产品叫“连连 AI”，用 AI 帮你找人和自动沟通，适合程序员、创业者等群体之间进行连接。但也正是因为平台性产品的定位，我们需要很多很多的用户。”

有没有可能，你这个 idea 就没搞头？典中典，感动了自己就以为能感动别人。

1 day ago

Replied to a topic by tracker647 › 职场话题 › 关于学 ROS 的一些疑问

如果只是打工的话，201x 年代，可能会有一些小作坊能接受。但是当前嘛，有技能的人多得是。你卖的是技能，那就只能一两千页的书，从头开始，每个点都摸出一定深度。

如果你是自己搞，无所谓了。讲真，具身智能这块，还真像宇树的老板说的那样，先开搞，需要用到什么再学。毕竟是工程类，一开始就搞一两千页的书从头开始，是个人都受不了。

比如灵巧手，这种需要什么场地？淘宝丰俭由人。

ps：ROS 如果你都觉得难，那具身智能要参与进去，估计够呛。真正搞深入，还得看原典。鱼皮的教程和 csdn 坐一桌。

3 days ago

Replied to a topic by NorthGod › Local LLM › 多机异构显卡组合推理

1 ，我押的是**内网一堆随时会掉的杂牌消费卡（网吧场景）上，节点掉了服务不断**——层粒度冗余 + 故障转移 + 预测调度 + 计费 / SaaS 。这是 vLLM （要可靠同构）和 llama.cpp rpc （无容错无服务层）都不碰的问题。

这才是最难的。

2 ，诚如 fcten 所言，我之前也忽略了事情的意义。既然是多机多卡分布式推理，那么起码也得是搞个 300B 以上的模型才有意义。也就是说在 1 里所描述的，很难像 llama.cpp /vllm/sglang 那样通用。你只能在几种特色模型做定制。支持的模型多寡，和功能是否能通，性能优劣。只能做平衡取舍。你不可能做到支持所有的模型，又还能性能卓绝。

3 ，在功能上来说，推理就是训练的 once ，这不只 llm ，任何机器学习的模型就是这样。你说的那是推理支持并发的性能问题。和 web 领域一样，是只要 10 个并发的 blog 和 10w 并发的门户网站的技术区分。

4 ，如果 1 的问题你不是 vibe coding ，我可能还有兴趣凑合一波，但是哥们儿看不了也不想细看 vibe coding 的这种 infra 代码。

@NorthGod

3 days ago

Replied to a topic by xlzhao2035 › 职场话题 › 南大 AI 大三，求大佬指点未来发展，单纯喜欢钱

让东南亚的老板赏识你重用你。

4 days ago

Replied to a topic by NorthGod › Local LLM › 多机异构显卡组合推理

最后，我依然对这种有雄心壮志并且肯动手的人此致敬礼！

4 days ago

Replied to a topic by NorthGod › Local LLM › 多机异构显卡组合推理

再多说几句：

1 ，你的问题，如果是 vllm 支持的 gpu ，那么 kuberay+vllm 早就能搞定多机多卡分布式推理。如果是 vllm 不支持的 gpu ，llama.cpp 的 rpc server 支持多机多卡的 pipeline 模式即 layer split 的推理。tensor parallelism 即 llama.cpp 的 row split 目前还不能多机多卡。

2 ，实际的，你的框架当前能单机多卡跑 Gemma4 系列，qwen3.5 系列了吗，这是两种不同 attention 的模型，如果能跑通，benchmark 对比 llama.cpp 如何？如果跑不通，连走都还不行，就不要谈跑了。

3 ，cc 能让你搞一点 web 前后端，app 之类的，就不要以为能搞定这个推理方向上最难的问题。

4 ，上半年号称要搞定单卡推理超出 gmem 参数容量的 LLM 的那哥们儿的项目，为什么熄火了？

4 days ago

Replied to a topic by NorthGod › Local LLM › 多机异构显卡组合推理

@NorthGod 看你这个回复，估摸着还没摸到门槛。你搞清楚了 microgpt 的每一个过程了吗？能从 0 开始训练一个 LLM 吗？你搞不清楚这些，怎么搞推理？推理就是训练的 once 。况且当前的 attention 的演化，导致 kvcache 分了不同的路线，这些你都不搞透彻，怎么把整个 LLM 切成多份？不管是横切，还是竖切。

最最主要的是，当前的 attention 加入 rnn 这种循环网络的动态机制之后，类似于 mamba ，混合 attention 连 llama.cpp 当前都没有完全搞定，就不要说切分之后通信了。

你有想法是好的，但是不能太多的想当然了。

» More replies by coefu