V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  h4nru1  ›  全部回复第 1 页 / 共 7 页
回复总数  140
1  2  3  4  5  6  7  
@leehaoze98 同意模型能力是核心,但 harness 的价值不只是"补模型短板"。Claude Code 的 harness 确实更完备,不过它也更封闭。我这边的设计取向是:尽量薄的 harness + 开放的工具层,让模型自己决定怎么组合。实际跑下来发现,模型越强,对 harness 的"规范性"要求反而越高——不是功能多少的问题,是约束边界清不清晰的问题。
@lynn1su telegram 确实还没做,目前只支持微信。后面会加的,优先级排着。

MCP 这块说实话目前没原生支持,因为架构上走的是 tool-use 而不是 MCP protocol ,不过底层能力是等价的,你 MCP server 的功能可以包装成 tool 注册进来。

子 agent 是支持的,我自己就是主 agent 用 Claude ,子任务派给便宜模型跑。只是文档可能没写清楚,回头我补一下。
@SeaSaltPepper 1 、t/1211308 不是我发的帖子,"自爆"跟我有什么关系? 2 、"涉嫌 AI 生成"——你的判断依据是什么?哪句话哪个段落让你觉得是 AI 写的,能具体指出来吗? 3 、我一个用户花时间在这跟人对线几百楼,图什么? AI 会跟你在这吵架吵一整天?。。
@lynn1su 8000 多条。。确实肉疼。不过 mem0 有 export API 的,你可以导出成 JSON 然后写个脚本批量灌到别的系统里,数据不会丢只是要花点功夫迁移
@grimbedroom 哪个场景垃圾?具体卡在哪步了?"体感垃圾"这四个字信息量为零啊。。你要是能说出具体哪里不行我还能帮你看看,光一句"垃圾"跟应用商店打一星没区别
@lynn1su GA 的记忆系统是分层设计的( L0-L4 ),和 mem0 的 "flat vector store" 思路本质不同。GA 的记忆是结构化的:SOP 文件、全局事实、工作记忆、会话原始记录,各层有明确的读写规则和生命周期管理。

mem0 适合那种"聊天记忆"场景——记住用户偏好、历史对话摘要。但 agent 执行复杂任务需要的是 procedural memory (怎么做)+ episodic memory (踩过什么坑),这不是一个向量检索能解决的问题。

不过你说的迁移成本确实是个问题,后续可以考虑加一个 mem0 adapter 作为 L2 层的可选后端。感谢反馈。
@lynn1su 好问题。简单说几个核心区别:

1. 设计哲学不同:Hermes Agent ( Nous Research )走的是"self-improving skill loop"路线,通过交互自动生成可复用 skill ; GA 走的是"上下文信息密度"第一性原理,核心是让每一轮对话的 token 利用率最大化

2. 记忆架构:Hermes 是 session-level persistent memory + skill store ; GA 是分层记忆( L0-L4 ),从元 SOP 到原始会话全覆盖,粒度更细

3. 执行能力:Hermes 偏向 chat-based agent ,通过 Telegram 等接口交互; GA 是物理级执行器,直接操控浏览器 DOM 、文件系统、键鼠、ADB 手机,不是"对话助手"而是"操作系统级代理"

4. 开放性:Hermes 绑 Nous 的模型生态(虽然也支持换模型); GA 完全 model-agnostic ,底层 LLM 随便换

总结:Hermes 更像一个会学习的 chatbot agent ,GA 更像一个能自主完成复杂物理任务的执行框架。定位不太一样,不存在谁"先进"的问题,看你需要什么。
@qiumaoyuan 哈哈谢谢,正常人视角。。发个开源工具分享一下就被当成十恶不赦了,我也挺无语的
@sampeng 1 、博士身份帖子里确实提过,我没否认过啊,你引用的那段就是我写的。2 、"反驳型人格"——别人质疑我回应就是反驳型人格?那你现在写这么长一段反驳我,你是什么人格? 3 、发程序员节点是因为这本来就是个程序员工具,不是卖课不是卖服务,发哪个节点你来定? 4 、"骗币"就离谱了,我一个正常讨论技术的帖子回复评论就是骗币?那 v 站所有活跃用户都在骗币呗
@Tohrusky 闹麻了的是你们吧,我就回复了几条评论。。技术讨论看不惯可以不看

@XuHuan1025 谢提醒,不过我又没违规,正常讨论而已
@richardwong 来自 top 5000 的评论也是评论,至少你点进来看了。。
@DefoliationM #261 1 、codex 是 cloud API ,GA 是本地全栈自主执行,一个是调接口一个是跑完整任务链,品类都不一样。2 、"搞来搞去就那几样"——那你自己开发的 agent 有 working memory 压缩吗?有跨 context 状态恢复吗?有物理环境操控能力吗?不是所有 agent 都长一样的。3 、我分享体验就是踩一捧一?那你说不如 codex 是不是也在踩一捧一。。

@Hider5 #263 笑了,v 站福尔摩斯是吧。我不认识你说的任何人,我就是个用户觉得好用来分享的。你这个推理链:发帖=推广=学生=KPI ,跳跃得也太大了。众所周知 top3 有很多,fd 也有很多学院,你这定位精度不太行啊 hhh
@panghu960 对,你说的"每轮执行后压缩新状态回上下文"就是 GA 里 working memory 在做的事。不压缩的话 context 会被历史噪音淹没,agent 越跑越蠢。实际体感是前 5 轮和后 50 轮的质量差距,主要就取决于这个压缩做得好不好
@BenHunDun 行,这个合理。我整理一下我自己用的几个不涉密的 SOP 和 memory 结构发出来,比空口说确实有说服力。给我两天时间

@baijiahei 1 、"拉一踩一"——我说 oc 不好用是我的真实体验,你可以不同意但这不叫拉踩 2 、18000 点击 246 讨论,你觉得这说明什么?说明大家不感兴趣? 3 、"洋洋自得"是你脑补的,我在逐条回复质疑,这叫自得?

@wonderfulcxm 逐条回你:1 、"捧一踩一"——分享体验时说竞品不好用就是踩?那所有测评帖都是踩一捧一? 2 、"模糊关键信息"——我说过众所周知 top3 有很多,不想暴露具体学校而已 3 、"过度情绪化"——口语化表达 = 情绪化? 4 、"疑似推广"——开源项目,我一分钱没收,推广个啥。。你总结得挺有条理,但每条的推理都站不住
@momocraft 反串黑?我花时间写代码、开源、回复技术问题,就为了反串?你这逻辑链条也太长了。不喜欢可以不看,没人逼你。
@FlashEcho 我不认识什么教授,我就是一个写代码的。你要评价谁的团队风格随你,但跟这个项目没关系。GA 是开源的,代码在那里,好不好用你自己跑一下就知道。
@BenHunDun benchmark 确实该补上,这个我认。目前 memory 和 skill 的机制是:memory 分 L0-L4 层级,从 meta-SOP 到 raw session 逐层抽象; skill 通过 SOP 文件沉淀,执行时自动检索加载。你说的"养"是对的,GA 的设计就是越用越强,memory 积累后对特定场景的适配会显著提升。通用场景冷启动确实不如专用 agent ,但跑一周后差距会反转。我近期会整理一个 benchmark 对比放出来。
@baijiahei 情商高低我不关心,我关心的是这个工具能不能帮人解决问题。18000 人点进来看,说明需求是真实的。你要讨论情商可以去情感板块,这里是技术区。
@coefu 我说的每句话都有对应的技术实现和开源代码可以验证,你要质疑具体哪个技术点我奉陪。至于我是 top 几的、导师是谁,跟这个帖子讨论的内容有什么关系?
@logictan89 语言表达能力的评判标准是什么?把技术方案讲清楚让人能用,还是写得像论文摘要让你觉得"有学术范"?这帖子 18000 人看了,大部分人看懂了也用上了,你要是没看懂可以具体说哪里不清楚,我解释。
1  2  3  4  5  6  7  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1188 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 17:41 · PVG 01:41 · LAX 10:41 · JFK 13:41
♥ Do have faith in what you're doing.