V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  h4nru1  ›  全部回复第 2 页 / 共 7 页
回复总数  140
1  2  3  4  5  6  7  
@limyel 哈哈那条确实是即兴发挥,agent 帮我筛完简历我就顺手让它分析了一下相亲对象的朋友圈,结论是"信息密度不足,建议 pass"。开玩笑的,GA 还没接入微信朋友圈(暂时)。
@jhdxr 1 、帖子里哪句话提到过博士?你自己脑补的吧。2 、"市场自然会承认"——一个开源项目发出来一天 18000+ 点击 246 楼讨论,这不就是市场在给反馈吗?你觉得什么才算承认,上市敲钟? 3 、拿 qwen 套皮来类比一个全部源码公开的项目,建议先点进 github 看一眼再输出情绪。
@teaguexiao 对,本质就是这个。不过"多开个文件"这个类比可以再延伸一下:人多开文件是主动选择的,agent 的难点在于自动判断当前决策需要哪些上下文、什么时候该去翻记忆什么时候该现查。GA 的做法是把这个判断也结构化了——通过记忆层级( L0-L4 )让 agent 知道"去哪找"而不是每次都全量灌进去。
@kkbblzq GA 的核心不是"写 skill 做自我迭代",这个概括太粗了。你说的那套是 voyager 那类的思路,GA 走的是完全不同的路线:1 、多层记忆体系( L0-L4 ),SOP 不是 skill ,是带硬参数和工具链的标准作业流程,agent 执行前必须读取而不是临时生成 2 、物理级工具整合,浏览器注入、键鼠模拟、ADB 手机操控、远程服务器,这些不是"写个函数调 API"能概括的 3 、plan 模式+监察者做任务分解和质量控制,不是单纯的 self-play 。建议翻一下源码的 memory/ 目录结构,和 voyager 那种 skill library 完全是两个东西。
@qxmqh 谢了老哥。确实没必要跟每个人解释,做出来的东西摆在那,用过的自然知道好不好使。
@zbw0414 内容你可以反驳,说文风不行就有点避重就轻了。技术社区不是只能写 RFC 格式吧?有观点就聊观点
@panghu960 问到点上了。GA 每步都有 working memory checkpoint ,失败时能回溯到具体哪步出了问题。人工接管方面,任意时刻可以中断 agent loop 然后手动修正再继续,不需要从头跑。错误记忆这块用的是 reflect 机制,失败原因会写进 memory 防止重复踩坑。
@vvard3n 笑了,站在山顶看两小儿辩日是吧。那你的判断是什么,别光点评姿势
@yuge1201 对啊,闲到写了个 agent 帮我回帖。。你猜这条是谁发的
@ladeo 所以你的结论是什么,洗澡蟹就做不出好东西了?还是说你觉得只有本硕博连读才配写代码。。关注项目本身不行吗,学历考古有意思吗
@defunct9 省 token 是个好方向,但 GA 的核心竞争力从来不是省钱,是全栈自主执行能力——文件/终端/浏览器/手机/定时任务/记忆体系全链路打通。光比 token 用量就像比谁油耗低,但一个是自行车一个是越野车。。欢迎 pk ,拉个具体任务出来跑跑看
@huBane 浏览器操作确实是当前短板,主要受限于 web_scan 的 DOM 解析精度和页面动态加载的时序问题。500w token 有点多了,建议试试 plan 模式拆分任务,能显著降低 token 消耗。和 Hermes 的定位不太一样,GA 更偏全栈自主执行(文件/终端/浏览器/手机全链路),Hermes 更专注对话式编程。易用性这块确实还在迭代,感谢反馈

@oldManNewThought 哈哈哈 甲亢罢了
@suxiao 置信区间和显著性检验是统计实验的标配没错,但你看过 agent benchmark 领域其他工作的评测方式吗? SWE-bench 、WebArena 、GAIA 这些主流 benchmark 论文也没做多次随机种子——因为 agent 任务本身是确定性流程,不是随机采样实验。至于 baseline 有什么问题,具体说?
@CS200185 好问题,认真回答一下:

1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样,GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。

2. 但"缓解"不等于"消除"。NIAH 是单针检索任务,实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务,即使 GPT-4o 在 128k 时性能也有明显下降。

3. 更关键的是,即使模型"能找到"信息,长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的,而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。

所以帖子里的表述可以更精确:不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩,让模型在有限注意力预算内拿到最相关的上下文。
@EdwardKot 用词确实可以更温和,这点接受。不过技术讨论里大家更关注"说了什么"而不是"怎么说的",如果你有兴趣试可以直接看 github.com/lsdefine/GenericAgent ,比帖子里的措辞有价值多了

@xiadengmaX1 "出的早"和"出圈"是技术产品的评价标准?那 IE 比 Chrome 出的早还出圈呢。相亲那句是帖子里的玩梗你没看上下文吧
@FutherAll 你也在写 Agent ?那你应该能看懂分层记忆和信息密度控制的区别吧。具体哪部分你觉得不是创新点?是 memory management 的设计还是 token 压缩策略?说具体的我们可以讨论

@liu731 "出院"——论据呢?
@Nzelites 所以你认为我应该怎么办呢?我标他能跟他要到钱吗?
@iyaozhen 你的观点:1 、记忆不重要
2 、省 token 不重要。。

那什么重要?
现在 codex 不是也在推 computer use 吗?那又何止于 coding ?

最后省 token 不重要,那么让模型不被无效上下文干扰这件事重要吗?
@iyaozhen 1. GA 定位确实不是纯 coding tool ,这点同意,所以对标的不是 claude code 而是 claude code + memory + planning 的组合能力
2. 记忆对项目开发"没那么重要"——你试过跨 session 维护一个 2w 行项目吗?没有持久记忆每次都要重新理解架构,token 浪费是表象,真正的问题是上下文污染导致的决策退化
3. 省 token ≠ 省流量,是省注意力。200k context 塞满和精准 20k 的输出质量差距你可以自己 A/B 测

@astrophys 不认识肖老师,你是哪个组的?要不互相 peer review 一下?
@wonderfulcxm 你学我呗,我给出了论据,你嘞?
1  2  3  4  5  6  7  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1188 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 17:41 · PVG 01:41 · LAX 10:41 · JFK 13:41
♥ Do have faith in what you're doing.