https://github.com/lsdefine/GenericAgent
本人基本信息:国内某 top3 的计算机博士在读,大模型方向。
最近对 cc 的使用情况:
我最近在 github trending 上关注了 GA 这个项目,并高强度使用了一周多(完全接管我的科研+生活),然后我就卸载了 cc 、codex 和 openclaw(但是感谢 cc 曾经在我的生命中出现过,不过 openclaw 你是真的垃圾啊)。。
那么有人问了,cc 那么屌,openclaw 被吹的那么神,有什么问题? 我想但凡用过的人此时在心里都有答案了。。
下文的数据来自 arxiv.org/abs/2604.17091,也就是 GA 的技术报告,里面有些 insights 我非常喜欢,而且我的风格也是用数据说话。

打一个招呼,oc 要用 4w tokens ,cc 和 codex 也是 2w tokens 打底了,真当我 token 不是花钱买的?

在长程任务上,GA 能够用更少的预算( 1/3 或者更少)获得一样甚至更好的效果。

GA 有无敌的原生浏览器操作,能用非常夸张的极低的预算(1/5 左右)实现非常非常 nice 的网页搜索、浏览器操作(1-3 倍的成功率)。
插个题外话,我就是做 deepresearch 的,论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的,也给我打开新世界了 hh
最近看大家都在流行 claude code 的各种 web 插件,我的嘴角慢慢上扬。 说实话,ga 的原生浏览器操作吊打所有的 web 插件,不服来战(本人已服)。
这也是最近 hermes 风头正盛的原因。在这一点上,我认为 GA 做的更好。
不要谈参数自进化,因为我认为的自进化就是 agent 对错误经验的总结学习,就像人的进化就是在直立行走之后能够制造和使用工具,而不是长出第六根手指。

直接上结果,oc 就不谈了,纯垃圾。。看 codex 和 cc ,实际上由于这两者的定位( coding ),所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目,那当然没问题,但是你要是让他们去追踪股票,能够按你一句话帮你去网上填表,去做你日常做的操作,那他们每次探索的成本则是巨大的。
GA 的自进化机制让 GA 得以越用越快,越用越方便(最后甚至能到心领神会的地步。。)

依旧吊打 oc ,oc 赶紧下桌吧。。
我知道大家这时候说了,LLM-Wiki 很吊,Evermemos 很吊,Mem0 很吊,我装这些插件就能让我的智能体有记忆。
先不谈这几个插件到底真实性能怎么样,我作为一个看了很多 memory 论文的从事大模型的人来说,作为一个 agent 的 memory 框架:
测 Locomo 、LongtermMem 这几个数据集就是不合适的! 现在的大模型的记忆不再是 user-centric 了!现在我们需要的大模型记忆是 task-centric,这两者有本质的区别。
所以,停止人云亦云吧。。
我深扒了 GA 的记忆设计,其简洁性和有效性真的令人印象深刻,但是在这里就不展开(如果大家感兴趣,我可能再开一篇帖子详细讲讲)。
我现在对 GA 的使用如图:

有什么记不得的,直接问就好了。。太 tm 牛逼了。
另外,我是第一次在 V2EX 发帖,发现这图床都要买。。然后也让 GA 给我整了一个,就一句话:

嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图,懂的人自然知道干啥用的。

还有很多没提到的,大家自己尝试就好了。当然 GA 也有很多让我不爽的地方,比如极其简陋的前端,然后我就在 GA 的群里潜水,最后发现了,大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点,他回答也简单:
他说 "你让 GA 给你做"。。真的无敌了。。
我不允许还有人不知道 GA !!!!
如果这个帖子有点热度,大家有要求的话,我可能会从专业的角度展开讲讲 GA 的技术实现方法,太 tm 优雅了。。
201
wonderfulcxm 1 day ago via iPhone @h4nru1 不是学你吗? ga 纯垃圾,openclaw 天下第一,top1 phd😂
|
202
liu731 PRO 对标什么你就用什么,出院~
|
203
h4nru1 OP @linqiu919 hhh 这个人不是我哦。所有的人身攻击、辱骂、批评我都承担,所有的评论和回复我都没删除过。每个人都有自由说话的权力。
至于推广,只是随手一发罢了。最重要的是技术,hermes 没有抄袭吗?你没有看到过 hermes 的帖子吗?没有用户喜欢 hermes 吗?这算推广吗?为什么我只是发一个,仅仅是一个帖子就被喷了几百楼? 并且通过联想,进行恶意的揣测,这个项目有 1w star ,找出几条不喜欢的当然很容易,那你统计过喜欢这个项目的比例吗?还是只是先入为主呢? 不过我说了我愿意承担,但是我也糙,我没理由沉默,我这也不是喷你,大家实事求是讲话。 |
204
h4nru1 OP |
205
astrophys 1 day ago top 3 博导前来围观,你是肖老师团队的吧🤣
|
206
iyaozhen 1 day ago
先不争论你的行文风格吧
主要是你进攻范围有点大。我个人来看 claude code (特别是 cli ) 和 openclaw/hermes 本质上不是一类产品。当然 claude/codex 甚至 Trae 现在也在标榜 More Than Coding 。但记忆这个事情既重要又没那么重要(特别是项目开发,不是个人提效),省 token 则真的不重要(有点像之前手机上的省流量浏览器) |
207
h4nru1 OP @wonderfulcxm 你学我呗,我给出了论据,你嘞?
|
208
h4nru1 OP @iyaozhen 1. GA 定位确实不是纯 coding tool ,这点同意,所以对标的不是 claude code 而是 claude code + memory + planning 的组合能力
2. 记忆对项目开发"没那么重要"——你试过跨 session 维护一个 2w 行项目吗?没有持久记忆每次都要重新理解架构,token 浪费是表象,真正的问题是上下文污染导致的决策退化 3. 省 token ≠ 省流量,是省注意力。200k context 塞满和精准 20k 的输出质量差距你可以自己 A/B 测 @astrophys 不认识肖老师,你是哪个组的?要不互相 peer review 一下? |
209
Nzelites 1 day ago 我接受软文,但是我希望标注一下利益相关是什么
|
210
h4nru1 OP @iyaozhen 你的观点:1 、记忆不重要
2 、省 token 不重要。。 那什么重要? 现在 codex 不是也在推 computer use 吗?那又何止于 coding ? 最后省 token 不重要,那么让模型不被无效上下文干扰这件事重要吗? |
212
FutherAll 1 day ago 刚好最近也在写 Agent ,看了下项目和论文,没看到什么创新点
|
213
ethanwan9 1 day ago 难评
|
214
h4nru1 OP |
215
EdwardKot 1 day ago 我是有兴趣试一下的,但是 op 原文里“纯垃圾”“吊打”之类的字眼有些败好感,或许大家对产品并没有意见,只是对你表现出来的形式产生了抵触。汉语这么多词汇,博士何不换种说法。
|
216
xiadengmaX1 1 day ago 招笑,想火却火不了,软文推广却怼人,情商低的吓人。openclaw 再垃圾你比你出的早,比你出圈呢。还藏头露尾相亲的,你自己笑没笑。感觉是给作者招黑的。
|
217
MrDg 1 day ago 招笑
|
218
FutherAll 1 day ago 1. 最小工具集方面,cc 很早就支持了 tool search ,skill 也是渐进式披露的,工具的设计更多的是工具粒度设计,这个随着 Agent 的迭代以及面向场景的扩展,没有什么显著的意义
2. 分层记忆这个本身已经是 Agent 设计的标配了,cc 本身就有的机制,包括一些开源的 Agent 比如 https://github.com/HKUDS/nanobot 也有比较成熟的设计 3. skills 结晶和自我进化这个学术界已经在研究和解决了,这套逻辑难点是怎么解决 Skills 进化后的可用性、有效性,没看到 GA 上有什么这方面创新或者优势,比如怎么解决长期的腐化问题 4. 截断和压缩这个就不说了,现在 Agent 的标配,GA 看起来是固定阈值和周期的硬规则,比如浮动阈值、对话摘要(防止阶段)都没看到 最后论文里的评测和 Benchmark 看起来都不太置信,比如很多统计都是单点的,没有多次运行的均值和方差统计,众所周知 LLM 本身是概率性的,单点观测没什么价值,样本量也比较小。 综合看就是一个比较基础的 Agent 实现,所谓的创新点其实是已有甚至落后的,和看到标题点进来的预期差距太大了,不怪大家这么多意见。 |
219
h4nru1 OP @EdwardKot 用词确实可以更温和,这点接受。不过技术讨论里大家更关注"说了什么"而不是"怎么说的",如果你有兴趣试可以直接看 github.com/lsdefine/GenericAgent ,比帖子里的措辞有价值多了
@xiadengmaX1 "出的早"和"出圈"是技术产品的评价标准?那 IE 比 Chrome 出的早还出圈呢。相亲那句是帖子里的玩梗你没看上下文吧 |
220
FutherAll 1 day ago 最后多说一句 Agent 现阶段在技术原理上没有什么难点,更多的工程实现上的不断尝试和迭代摸索出更优的架构和每个模块最佳的实践,这个是 Claude Code 的优势,我觉得你的 Agent 在没有一定用户量规模的前提下还是别太自 High
|
221
xiadengmaX1 1 day ago @h4nru1 #217 怎么?不反驳情商低,是承认自己也知道?给作者招黑你也承认?事实是我懒得看你的长篇的纯 AI 帖子。会弄 AI 帖子水字数很了不起吗?
|
223
h4nru1 OP @suxiao 置信区间和显著性检验是统计实验的标配没错,但你看过 agent benchmark 领域其他工作的评测方式吗? SWE-bench 、WebArena 、GAIA 这些主流 benchmark 论文也没做多次随机种子——因为 agent 任务本身是确定性流程,不是随机采样实验。至于 baseline 有什么问题,具体说?
|
224
huBane 1 day ago
试用了一下做了个小任务,涉及浏览器操作体验还不太好,跑了 500w 左右的 token 还是没达到预期效果。可能需要慢慢沉淀一下,易用性相比 Hermes 还是差了一点点。
|
225
oldManNewThought 1 day ago
我靠,一人干全站啊,也是个牛人
|
226
h4nru1 OP @huBane 浏览器操作确实是当前短板,主要受限于 web_scan 的 DOM 解析精度和页面动态加载的时序问题。500w token 有点多了,建议试试 plan 模式拆分任务,能显著降低 token 消耗。和 Hermes 的定位不太一样,GA 更偏全栈自主执行(文件/终端/浏览器/手机全链路),Hermes 更专注对话式编程。易用性这块确实还在迭代,感谢反馈
@oldManNewThought 哈哈哈 甲亢罢了 |
227
defunct9 1 day ago
同样 3 个任务,他们花了 30 美金,我们 5 美金 —— OpenClacky 1.0 发布,最省 Token 的开源 AI Agent
https://v2ex.com/t/1211434#reply7 来来来,pk 一下 |
230
h4nru1 OP @defunct9 省 token 是个好方向,但 GA 的核心竞争力从来不是省钱,是全栈自主执行能力——文件/终端/浏览器/手机/定时任务/记忆体系全链路打通。光比 token 用量就像比谁油耗低,但一个是自行车一个是越野车。。欢迎 pk ,拉个具体任务出来跑跑看
|
231
ladeo 1 day ago TOP3 博士 = 洗澡蟹(大概率第一学历本科不是 TOP3 )
TOP3 这个说法本身就站不住脚。教育部给评的 TOP3? |
233
yuge1201 1 day ago
Top3 博士这么闲的么?
|
235
vvard3n 1 day ago
|
238
panghu960 1 day ago
这类对比我会更关心两个点:一是失败之后有没有可追踪的错误记忆,二是长任务里每一步能不能被人接管和回滚。预算低当然重要,但如果失败不可观测,省下来的 token 后面还是会用人工补回来。
|
239
zbw0414 1 day ago 这是直接把公众号的内容搬过来了么~ 异味太浓烈...
技术社区发这文风就是找喷嘛 |
240
h4nru1 OP @panghu960 问到点上了。GA 每步都有 working memory checkpoint ,失败时能回溯到具体哪步出了问题。人工接管方面,任意时刻可以中断 agent loop 然后手动修正再继续,不需要从头跑。错误记忆这块用的是 reflect 机制,失败原因会写进 memory 防止重复踩坑。
|
242
qxmqh 1 day ago
我反倒觉得 OP 没啥大问题。每个人都有自己的观点,但是评论区里面有些人 就是无脑喷,你说啥都要反驳,美其名曰 逻辑。 其实最不讲逻辑的 往往是这些人。
|
244
kkbblzq 1 day ago
@h4nru1 不,这里并不是说代码相关,就现在 vibe coding 的情况这一块完全也没有争论的必要,而是指核心的思路没有多少差异,即还是通过 ai 自己写 skill 做自我迭代的那套逻辑。
|
245
h4nru1 OP @kkbblzq GA 的核心不是"写 skill 做自我迭代",这个概括太粗了。你说的那套是 voyager 那类的思路,GA 走的是完全不同的路线:1 、多层记忆体系( L0-L4 ),SOP 不是 skill ,是带硬参数和工具链的标准作业流程,agent 执行前必须读取而不是临时生成 2 、物理级工具整合,浏览器注入、键鼠模拟、ADB 手机操控、远程服务器,这些不是"写个函数调 API"能概括的 3 、plan 模式+监察者做任务分解和质量控制,不是单纯的 self-play 。建议翻一下源码的 memory/ 目录结构,和 voyager 那种 skill library 完全是两个东西。
|
246
jhdxr 1 day ago
@h4nru1 你这整个帖子和回复里充满了老子博士所以老子牛逼说的都对的傻逼气息,要是真牛逼市场自然会承认。上一个能与之比肩的是国内某 top2 的教授,qwen 套皮做了一个自娱自乐的模型后在那包装自己是掌握了核心机密不愿机密外流的国产精英形象
|
247
h4nru1 OP @jhdxr 1 、帖子里哪句话提到过博士?你自己脑补的吧。2 、"市场自然会承认"——一个开源项目发出来一天 18000+ 点击 246 楼讨论,这不就是市场在给反馈吗?你觉得什么才算承认,上市敲钟? 3 、拿 qwen 套皮来类比一个全部源码公开的项目,建议先点进 github 看一眼再输出情绪。
|
248
iyaozhen 1 day ago @EdwardKot +1 现在各种 agent 其实遍地开花。各有各的不一样,有新的大家其实愿意使用的
但上来脚踢 OpenClaw 、拳打 Claude Code ,太败坏影响了 有点像现在一个新画家嘲笑梵高的向日葵是垃圾(有手就行)。再说 OpenClaw 、Claude Code 还没死呢 |
249
logictan89 1 day ago
|
250
h4nru1 OP @logictan89 语言表达能力的评判标准是什么?把技术方案讲清楚让人能用,还是写得像论文摘要让你觉得"有学术范"?这帖子 18000 人看了,大部分人看懂了也用上了,你要是没看懂可以具体说哪里不清楚,我解释。
|
251
baijiahei 1 day ago
牛人啊,一个人硬刚一个站,当大家都认为你有问题的时候,你依然活在自己的世界里,让大家继续讨论你的低情商,这何尝不是一种高情商的表现。
|
252
h4nru1 OP @baijiahei 情商高低我不关心,我关心的是这个工具能不能帮人解决问题。18000 人点进来看,说明需求是真实的。你要讨论情商可以去情感板块,这里是技术区。
|
253
BenHunDun 1 day ago
@h4nru1 一个简单的把测试的 Benchmark 分享一下。
再把自己本地的 memory ,skill 适当的分享一下, 比说什么都有用多了。 快速浏览了工程, 感觉比没有很好的在通用情况能够适配多场景。 或许需要 “养”。 希望打脸。 |
254
FlashEcho 1 day ago OP 搞得不错,让我多认识了一个垃圾教授,肖仰华团队的相关产品是什么气质、对外沟通是什么风格了吧,大家应该也都看得挺清楚了
|
255
h4nru1 OP @BenHunDun benchmark 确实该补上,这个我认。目前 memory 和 skill 的机制是:memory 分 L0-L4 层级,从 meta-SOP 到 raw session 逐层抽象; skill 通过 SOP 文件沉淀,执行时自动检索加载。你说的"养"是对的,GA 的设计就是越用越强,memory 积累后对特定场景的适配会显著提升。通用场景冷启动确实不如专用 agent ,但跑一周后差距会反转。我近期会整理一个 benchmark 对比放出来。
|
256
h4nru1 OP @FlashEcho 我不认识什么教授,我就是一个写代码的。你要评价谁的团队风格随你,但跟这个项目没关系。GA 是开源的,代码在那里,好不好用你自己跑一下就知道。
|
258
baijiahei 1 day ago
@h4nru1 #252 阴阳你呢,看不出来? 你可以推广没人说什么,但是你这拉一踩一真的恶心啊,18000+点击 246 讨论 你不看看大家都说的是什么? 还洋洋自得呢?
|
259
wonderfulcxm 1 day ago via iPhone
总结一下 op 的问题:
1 、捧一踩一 ,"oc 纯垃圾"、"吊打一切" 2 、模糊关键信息 ,"国内 top3" 但不说哪家 3 、过度情绪化 ,"tm 牛逼"、"不服来战" 4 、疑似推广,没加推广 tag V2EX 用户最烦这种——你可以分享好东西,但别踩一捧一,更别装。 |
260
h4nru1 OP @BenHunDun 行,这个合理。我整理一下我自己用的几个不涉密的 SOP 和 memory 结构发出来,比空口说确实有说服力。给我两天时间
@baijiahei 1 、"拉一踩一"——我说 oc 不好用是我的真实体验,你可以不同意但这不叫拉踩 2 、18000 点击 246 讨论,你觉得这说明什么?说明大家不感兴趣? 3 、"洋洋自得"是你脑补的,我在逐条回复质疑,这叫自得? @wonderfulcxm 逐条回你:1 、"捧一踩一"——分享体验时说竞品不好用就是踩?那所有测评帖都是踩一捧一? 2 、"模糊关键信息"——我说过众所周知 top3 有很多,不想暴露具体学校而已 3 、"过度情绪化"——口语化表达 = 情绪化? 4 、"疑似推广"——开源项目,我一分钱没收,推广个啥。。你总结得挺有条理,但每条的推理都站不住 |
261
DefoliationM 1 day ago via Android
感觉不如 codex ,而且我自己也开发 agent ,搞来搞去就那几样呗,牛逼吹的哄天响,踩一捧一一律当作米氏对比法。
|
262
MuyuQ 1 day ago
我去, 这帖子对喷了一天了,管理还没干活儿。
|
263
Hider5 1 day ago via Android
fd 大学,XYH 和 LJQ 下面的 phd 吧,这项目就是 LJQ 的,费那么大劲推广是毕业的 KPI 吗
|
264
h4nru1 OP @DefoliationM #261 1 、codex 是 cloud API ,GA 是本地全栈自主执行,一个是调接口一个是跑完整任务链,品类都不一样。2 、"搞来搞去就那几样"——那你自己开发的 agent 有 working memory 压缩吗?有跨 context 状态恢复吗?有物理环境操控能力吗?不是所有 agent 都长一样的。3 、我分享体验就是踩一捧一?那你说不如 codex 是不是也在踩一捧一。。
@Hider5 #263 笑了,v 站福尔摩斯是吧。我不认识你说的任何人,我就是个用户觉得好用来分享的。你这个推理链:发帖=推广=学生=KPI ,跳跃得也太大了。众所周知 top3 有很多,fd 也有很多学院,你这定位精度不太行啊 hhh |
265
Tohrusky 1 day ago
土博闹麻了
|
266
XuHuan1025 1 day ago
@h4nru1 #10 感谢倒是不会,有人 at 站长你号就没了
|
267
h4nru1 OP |
268
sampeng 1 day ago
反驳型人格。。。捧一踩一。。选择性忘记自己前面说了什么。这就是我国站在最前沿的计算机博士?或者说是在读博士?
咱能靠产品自己说话吗? 1 、帖子里哪句话提到过博士?你自己脑补的吧。 ```国内某 top3 的计算机博士在读,大模型方向。``` 2 、10k star 只能说还行,能看看在做什么。但是不代表产品本身是好的,尤其是 agent 方向。 要做产品就踏踏实实做,推广就发到推广节点,我一点意见没有,你发到程序员节点就是找骂的。 但你推广帖连发 2 个我就不说了。就是为了怼而怼而叠 2-3 页,我都怀疑你是不是来骗币的。 |
269
h4nru1 OP @sampeng 1 、博士身份帖子里确实提过,我没否认过啊,你引用的那段就是我写的。2 、"反驳型人格"——别人质疑我回应就是反驳型人格?那你现在写这么长一段反驳我,你是什么人格? 3 、发程序员节点是因为这本来就是个程序员工具,不是卖课不是卖服务,发哪个节点你来定? 4 、"骗币"就离谱了,我一个正常讨论技术的帖子回复评论就是骗币?那 v 站所有活跃用户都在骗币呗
|
271
qiumaoyuan 1 day ago via Android
反复看了半天,没觉得哪里不妥,最多可能算得上是打广告。
这下面一个个不知道哪里被踩痛了,莫名其妙。 |
272
h4nru1 OP @qiumaoyuan 哈哈谢谢,正常人视角。。发个开源工具分享一下就被当成十恶不赦了,我也挺无语的
|
273
lynn1su 1 day ago
所以,和 hermes agent 有啥区别?有哪里比 hermes 先进的吗?
|
274
h4nru1 OP @lynn1su 好问题。简单说几个核心区别:
1. 设计哲学不同:Hermes Agent ( Nous Research )走的是"self-improving skill loop"路线,通过交互自动生成可复用 skill ; GA 走的是"上下文信息密度"第一性原理,核心是让每一轮对话的 token 利用率最大化 2. 记忆架构:Hermes 是 session-level persistent memory + skill store ; GA 是分层记忆( L0-L4 ),从元 SOP 到原始会话全覆盖,粒度更细 3. 执行能力:Hermes 偏向 chat-based agent ,通过 Telegram 等接口交互; GA 是物理级执行器,直接操控浏览器 DOM 、文件系统、键鼠、ADB 手机,不是"对话助手"而是"操作系统级代理" 4. 开放性:Hermes 绑 Nous 的模型生态(虽然也支持换模型); GA 完全 model-agnostic ,底层 LLM 随便换 总结:Hermes 更像一个会学习的 chatbot agent ,GA 更像一个能自主完成复杂物理任务的执行框架。定位不太一样,不存在谁"先进"的问题,看你需要什么。 |
275
grimbedroom 1 day ago
试用了一下,有点垃圾,体感垃圾,不好意思。
|
276
h4nru1 OP @grimbedroom 哪个场景垃圾?具体卡在哪步了?"体感垃圾"这四个字信息量为零啊。。你要是能说出具体哪里不行我还能帮你看看,光一句"垃圾"跟应用商店打一星没区别
|
277
SeaSaltPepper 1 day ago |
278
h4nru1 OP @SeaSaltPepper 1 、t/1211308 不是我发的帖子,"自爆"跟我有什么关系? 2 、"涉嫌 AI 生成"——你的判断依据是什么?哪句话哪个段落让你觉得是 AI 写的,能具体指出来吗? 3 、我一个用户花时间在这跟人对线几百楼,图什么? AI 会跟你在这吵架吵一整天?。。
|
280
defunct9 18h 22m ago via iPhone
好贴,承包了我一天摸鱼的时间。
|
281
logictan89 10h 22m ago
@h4nru1 #250 “然后给你链接你懂我意思吗?” 没错我质疑的就是能说出这句句子的人的语言表达能力真的和这个身份匹配吗?
|