如题,从 Claude Code / Cursor 的 Claude Opus 4.1 thinking (带 ultrathink.)迁移到 GPT-5-high 的 Cursor 和 Codex 之后最明显的感想主要有这些:
相比于 Claude 系怎么都改不好,无论上多少 prompt 都没办法完全修复的 You are absolutely right 来说,GPT-5 是真的知道什么时候该捧着几个方案和自己的思考去找用户确认一下再动笔写,也知道什么时候去和用户犟嘴,这种讨论能力带来的体验真的很舒适。
GPT-5 是真的省 token 。可能和 OpenAI 的 tokenizer 有关,并且 GPT-5 的回答非常简练,在一个 context 里可以完成非常复杂的工作。实际体验下来,同样在 Cursor 里,GPT-5-high-fast 在上下文爆炸之前可以多做三分之一到一半的工作,这使得我可以让它在同一个上下文里做很多代码优化和 bug 修复,而不需要重新去构造新的上下文。
GPT-5 会主动反思自己可能漏掉的东西,包括别扭的 tool call ,遗漏的 linting 等等,它几乎从没在我面前主动声称代码质量达到了生产水准。而 Claude Opus 4.1 thinking + ultrathink 虽然也可以搞定问题,但它经常带着 bug 和冗余写法就声称生产水准实在是很掉好感。
GPT-5 是明显更信任自己的知识而不是用户的,它的讨论特性会让它可能停下来问我,但我真的需要给它配一个好用的 RAG 才能避免和它反复犟嘴或者去搬一个文档链接出来给它停止争论。在用 GPT-5 的时候,context7 就是完完全全的标配。
更大的思考预算。即使是加上 ultrathink ,Claude 系的平均思考长度也是低于 GPT-5-high 的,而且很多时候会像一个复读机一样反复思考一模一样的东西。而 GPT-5-high 的思考就能结结实实向很多方向去探索,即便最后二者都能解决问题,GPT-5-high 的思考也会让我觉得它是更不经验主义的。
![]() |
1
anivie 1 天前
|
2
dji38838c 1 天前
你用的是 plus 还是 pro?
|
![]() |
3
wdhwg001 OP @dji38838c 现在从 Claude Max 200 刀切换到了 Pro ,我实际上没有在 Plus 下试用过 codex ,因为我是一直都用最高思考预算的那种,和小模型斗智斗勇属实没啥必要。
|
![]() |
4
wdhwg001 OP ![]() @anivie 我倒是对 a 社那个什么立场表态没啥感想,我对 Claude Opus 4.1 最核心的感想是,它确实比起 GPT-5 有更大的知识和经验储备,但是盲从用户、过度自信和过度设计这些方面确实让人觉得它用起来很不省心,这种沮丧的拉锯战让人很难觉得它的 token 真的值这个价。
|
![]() |
5
letitbesqzr 1 天前
我这几天也是大量使用 codex-cli ,几点感受:
1. 划算 ,plus 用户,即可以享受官网现在每周 3000 次的 Thinking 对话 。codex 里走 GPT-5-high ,每天都在大量使用,一个对话几十万的 token 消耗,也没遇到过限额的情况。 2. 会停下来让用户决定方案, 确定一些事项。claude 经常是说有 n 个方案可以实现,然后把这 n 个方案都给我加上了。。 |
![]() |
6
dssxzuxc 1 天前
GPT-5-high 实在太不信任用户了,例如我明确说让它翻译本页面的全部中文,只需帮我编写当前页面的 messages 。而它思考了很久,自行去我已存在的 locale 目录读一遍里面的所有翻译,掌握里面的结构,然后将当前翻译移进 locales 目录。我不得不叫停,然后为它讲解什么是 local scope ,与当前组件深度绑定且不可复用的翻译与可复用的公共翻译有什么区别。而后才真正开始做事,但是这小子依然不老实,看到个可疑组件就要钻进去看看,磨磨蹭蹭才搞好。gpt-5-hight 的 free 实在让我震惊,有种握不住方向盘的感觉,但是在真正逻辑复杂的场景下确实好用,claude 动不动就表示当前编写的💩代码完美无缺。
|
![]() |
7
wdhwg001 OP @dssxzuxc 确实是这样的。明显感觉用 GPT-5 的时候的思维模式和用 Claude 不一样,它非常容易起疑心,但我觉得这一点在写代码的时候反而是好事情。
Claude 需要用很多重语气词告诉它要去刨根问底,但依然不能避免它看到一个什么类似的东西就经验主义,而 GPT-5 则需要明确告诉它一个合适的调查范围,以及在哪里可以拿到足够的知识。 如果把二者都当成员工的话,我确实会更信任 GPT-5 一点,因为我自己的写码风格也是会一路深挖到底,而不是模仿着抄抄就完事的。 |
![]() |
8
TimePPT PRO @dssxzuxc
翻译这种任务不要开 high ,甚至我在普通任务上,调用 api 的时候都是直接把 reasoning={"effort": "minimal"}的 具体可以参考官方指导文档 [GPT-5 for Coding] https://cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf #2. Use the right reasoning effort GPT-5 will always perform some level of reasoning as it solves problems. To get the best results, use high reasoning effort for the most complex tasks. If you see the model overthink simple problems, be more specific or choose a lower reasoning level like medium or low. |
![]() |
9
stimw 1 天前
https://x.com/iannuttall/status/1962910312430215307
我也看好 codex ,但除开模型,目前 codex 作为 agent 本身比 claude code 还缺少一些功能。另外如果 openai 有 100 刀的订阅就好了。目前我还不会切换到 codex ,但感觉不会太久了。 |
![]() |
12
wdhwg001 OP ![]() @owen800q Cursor 有目前业内最好的 prompt engineering 和 tool call 设计,它当前还不是 Codex 和 Claude Code 可以碰瓷的。
举例来说的话,比如: Cursor Rules 是直接被嵌入到首个 User 信息的,而 Claude Code 是把 CLAUDE.md 当成一条 User 信息插入在首个 User 信息之前,Codex 则是在 System Prompt 里提醒 AI 要去读 AGENT.md 。比较来看,当然是 Cursor 的做法更好。 Cursor 会拦截所有的 grep 操作,并且将它转成 grep tool call 并强制加上上下文信息,而 Claude Code 的做法是单独提供 grep 工具并且在 Prompt 里要求 AI 用工具而不是命令行,Codex 的做法是不提供 grep 工具,让 AI 优先用 rg 。 Cursor 会在编辑工具的返回内容里提醒 AI 要使用 read_lints 检查修复所有的 linting 错误,而 Claude Code 和 Codex 都只是在初始 Prompt 里强调要跑 linting 。 并且 Cursor 虽然有 25 tool call 自动停下来的限制,但这比起 Claude Code 经常在莫名其妙的地方写一个 Summary 然后停下来要好得多。 至于 Cursor 的 GPT-5 ,我的体感是 gpt-5-high-fast 比 codex 快,而 gpt-5-high 比 codex 慢,思考时长没啥区别。 |
![]() |
14
Geekgogo 1 天前
请问在 ChatGPT 网页充值 plus 的话,可以使用 API 调用 codex 吗?
|
![]() |
15
stimw 1 天前
@wdhwg001 #13 之前对 cursor 印象不是很好,原因包括几次调整价格策略和降智。现在公司因为版权风险不让用 cursor ,个人购买也不行,我就一直用 claude code 了。
|
![]() |
16
xctcc 1 天前 via iPhone
claude-cli 用的比 codex-cli 舒服,可能刚用两天还没习惯,之前一个需求 sonnet4 经常吭哧吭哧做了十几分钟,测试跑了一下都成功了,然后看后台没有数据,结果看了代码用的是是模拟数据,我真的受不了这点,claude.md 也写了禁止占位符和模拟数据,还是浪费了一堆 token
|
![]() |
17
SignUpWithSolana 1 天前 via iPhone
最近我也开始用 codex ,昨天让它在一个旧项目加上 tanstack query ,改好后,发现有些 api 请求没加,问他为什么不加,他的回答里有自己的道理坚持不加,我觉得这样挺好的
|
18
165924 1 天前 ![]() 之前用 claude code ,经常遇到的头疼事就是:让他修复杂问题,如果他发现他解决不了,会干脆删除掉相关代码,换成模拟数据生成,或者干脆固定 return 设定好的数据。然后最后 summary 的时候告诉我已经运行正常了😅
类似这种的偷懒事经常干,偷懒就算了倒是告诉我啊😅排查起来还怪麻烦的。 |
19
zowee 1 天前
想请问各位,目前一般的节点还会降智吗?下个月回国不知道要买什么样的节点不会降智。谢谢回复
|
20
nicaiwss 23 小时 34 分钟前 via iPhone
是和 cursor 一起用吗? codex 是不是可以作为 cursor 的插件?
|
21
walterggg 21 小时 47 分钟前 via iPhone
我的 vsc 用 codex 插件没有办法发送 prompt ,但是可以登录,有没有解决方案,vsc 已经设置了 clash 的全局代理
|
22
notwaste 18 小时 55 分钟前 via iPhone
codex 用多了把我的 web 整降智了
|
![]() |
23
ninjaJ 16 小时 57 分钟前
停下来等用户做决定太重要了,之前想办法在 prompt 里提醒 Claude code 等我做决定,做 TODO ,总是到后面会漏掉。
不知道“简练”对 token 窗口的影响究竟大不大。 |
![]() |
24
SignUpWithSolana 16 小时 33 分钟前
@165924 #18
应该是 sonnet 4 模型的问题,你在 cursor 用 sonnet 4 应该也会这样 |
![]() |
25
taosimple 16 小时 9 分钟前
|
![]() |
26
wdhwg001 OP @taosimple Cursor 完全不阻止你尝试将整个上下文的任意一条信息 dump 到一个文件,Claude Code 的反编译满天飞,Codex 干脆是开源的。
这种差异决定了 LLM 是把它当作需要回馈的用户指令还是一段上下文。所以 Cursor 是 Rules ,而 Claude Code 是 Memory 。 |
27
songtianlun PRO 周末出去玩,路上玩了一下 codex ,目前看还挺惊艳的。针对 GitHub 仓库下指令,然后就开始运行 agent ,出结果没问题点击 pr ,在 GitHub 合入。配合 devops 自动部署。就直接部署好了。
整个流程电脑都不用打开,指挥 ai 自动写代码了。确实是省心,其他效果不清楚,cc 每次深度使用就必须开始斗智斗勇了,codex 这边这个工作流着实是牛。 |
![]() |
28
mlzboy 10 小时 21 分钟前
我的经历是 cursor < augment < claude code max,ccm 我的感触是,用好了比人强,我之前在改一个 google blockly 的开源项目,这个代码如果要是我自己来修改,还是超出我的能力了,我把要求和最后的效果给它,通过 2 天的反复沟通,就是一次不行,两次,不停的调整,有一点进步就保存 commit ,这样弄两天能搞定一个 feature ,这种 feature 是只有超级资深才能搞定的,就是我只关注输出和反馈,ccm 负责写。我用 Claudia 统计,一个 feature60 刀,另一个 feature200 刀解决。类似于算力出奇迹。不知道 codex 有没有这种效果
|
![]() |
29
wdhwg001 OP @mlzboy Cursor 的 Claude Opus 4.1 thinking 的 thinking budget 确实是比 Claude Code + Opus + ultrathink 要低的,大概只有 ultrathink 的一半,所以你如果真的面向最复杂的需求 Plan 的话,最好还是 Claude Code + Opus + ultrathink 。Augment 我记得完全没有 Opus 接入。
Cursor 的一个缺陷是,你需要给它一个 Cursor Rules ,不然它不会主动去做 Plan 。 codex 和 Cursor 的 gpt-5-high-fast 的思考预算是一样的,后者的 token 速度稍快一点。 |
30
ovtfkw 8 小时 53 分钟前 via iPhone
codex cli 一粘贴文字就给你自动按回车了要怎么解决啊 我还想手动打字了就直接思考了
|