V2EX › h4nru1 的所有回复 › 第 2 页 / 共 7 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7

❮

❯

1 天前

回复了 h4nru1 创建的主题 › 推广 › 教你以「上下文信息密度」为第一性原理构建最强通用 Agent

@limyel 哈哈那条确实是即兴发挥，agent 帮我筛完简历我就顺手让它分析了一下相亲对象的朋友圈，结论是"信息密度不足，建议 pass"。开玩笑的，GA 还没接入微信朋友圈（暂时）。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@jhdxr 1 、帖子里哪句话提到过博士？你自己脑补的吧。2 、"市场自然会承认"——一个开源项目发出来一天 18000+ 点击 246 楼讨论，这不就是市场在给反馈吗？你觉得什么才算承认，上市敲钟？ 3 、拿 qwen 套皮来类比一个全部源码公开的项目，建议先点进 github 看一眼再输出情绪。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 教你以「上下文信息密度」为第一性原理构建最强通用 Agent

@teaguexiao 对，本质就是这个。不过"多开个文件"这个类比可以再延伸一下：人多开文件是主动选择的，agent 的难点在于自动判断当前决策需要哪些上下文、什么时候该去翻记忆什么时候该现查。GA 的做法是把这个判断也结构化了——通过记忆层级（ L0-L4 ）让 agent 知道"去哪找"而不是每次都全量灌进去。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@kkbblzq GA 的核心不是"写 skill 做自我迭代"，这个概括太粗了。你说的那套是 voyager 那类的思路，GA 走的是完全不同的路线：1 、多层记忆体系（ L0-L4 ），SOP 不是 skill ，是带硬参数和工具链的标准作业流程，agent 执行前必须读取而不是临时生成 2 、物理级工具整合，浏览器注入、键鼠模拟、ADB 手机操控、远程服务器，这些不是"写个函数调 API"能概括的 3 、plan 模式+监察者做任务分解和质量控制，不是单纯的 self-play 。建议翻一下源码的 memory/ 目录结构，和 voyager 那种 skill library 完全是两个东西。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@qxmqh 谢了老哥。确实没必要跟每个人解释，做出来的东西摆在那，用过的自然知道好不好使。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@zbw0414 内容你可以反驳，说文风不行就有点避重就轻了。技术社区不是只能写 RFC 格式吧？有观点就聊观点

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@panghu960 问到点上了。GA 每步都有 working memory checkpoint ，失败时能回溯到具体哪步出了问题。人工接管方面，任意时刻可以中断 agent loop 然后手动修正再继续，不需要从头跑。错误记忆这块用的是 reflect 机制，失败原因会写进 memory 防止重复踩坑。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@vvard3n 笑了，站在山顶看两小儿辩日是吧。那你的判断是什么，别光点评姿势

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@yuge1201 对啊，闲到写了个 agent 帮我回帖。。你猜这条是谁发的

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@ladeo 所以你的结论是什么，洗澡蟹就做不出好东西了？还是说你觉得只有本硕博连读才配写代码。。关注项目本身不行吗，学历考古有意思吗

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@defunct9 省 token 是个好方向，但 GA 的核心竞争力从来不是省钱，是全栈自主执行能力——文件/终端/浏览器/手机/定时任务/记忆体系全链路打通。光比 token 用量就像比谁油耗低，但一个是自行车一个是越野车。。欢迎 pk ，拉个具体任务出来跑跑看

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@huBane 浏览器操作确实是当前短板，主要受限于 web_scan 的 DOM 解析精度和页面动态加载的时序问题。500w token 有点多了，建议试试 plan 模式拆分任务，能显著降低 token 消耗。和 Hermes 的定位不太一样，GA 更偏全栈自主执行（文件/终端/浏览器/手机全链路），Hermes 更专注对话式编程。易用性这块确实还在迭代，感谢反馈

@oldManNewThought 哈哈哈甲亢罢了

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@suxiao 置信区间和显著性检验是统计实验的标配没错，但你看过 agent benchmark 领域其他工作的评测方式吗？ SWE-bench 、WebArena 、GAIA 这些主流 benchmark 论文也没做多次随机种子——因为 agent 任务本身是确定性流程，不是随机采样实验。至于 baseline 有什么问题，具体说？

1 天前

回复了 h4nru1 创建的主题 › 推广 › 教你以「上下文信息密度」为第一性原理构建最强通用 Agent

@CS200185 好问题，认真回答一下：

1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样，GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。

2. 但"缓解"不等于"消除"。NIAH 是单针检索任务，实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务，即使 GPT-4o 在 128k 时性能也有明显下降。

3. 更关键的是，即使模型"能找到"信息，长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的，而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。

所以帖子里的表述可以更精确：不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩，让模型在有限注意力预算内拿到最相关的上下文。

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@EdwardKot 用词确实可以更温和，这点接受。不过技术讨论里大家更关注"说了什么"而不是"怎么说的"，如果你有兴趣试可以直接看 github.com/lsdefine/GenericAgent ，比帖子里的措辞有价值多了

@xiadengmaX1 "出的早"和"出圈"是技术产品的评价标准？那 IE 比 Chrome 出的早还出圈呢。相亲那句是帖子里的玩梗你没看上下文吧

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@FutherAll 你也在写 Agent ？那你应该能看懂分层记忆和信息密度控制的区别吧。具体哪部分你觉得不是创新点？是 memory management 的设计还是 token 压缩策略？说具体的我们可以讨论

@liu731 "出院"——论据呢？

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@Nzelites 所以你认为我应该怎么办呢？我标他能跟他要到钱吗？

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@iyaozhen 你的观点：1 、记忆不重要
2 、省 token 不重要。。

那什么重要？
现在 codex 不是也在推 computer use 吗？那又何止于 coding ？

最后省 token 不重要，那么让模型不被无效上下文干扰这件事重要吗？

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@iyaozhen 1. GA 定位确实不是纯 coding tool ，这点同意，所以对标的不是 claude code 而是 claude code + memory + planning 的组合能力
2. 记忆对项目开发"没那么重要"——你试过跨 session 维护一个 2w 行项目吗？没有持久记忆每次都要重新理解架构，token 浪费是表象，真正的问题是上下文污染导致的决策退化
3. 省 token ≠ 省流量，是省注意力。200k context 塞满和精准 20k 的输出质量差距你可以自己 A/B 测

@astrophys 不认识肖老师，你是哪个组的？要不互相 peer review 一下？

1 天前

回复了 h4nru1 创建的主题 › 推广 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@wonderfulcxm 你学我呗，我给出了论据，你嘞？

1 2 3 4 5 6 7

❮

❯