GPT 完胜 Claude

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

🚀根据 DeepSWE (最佳编码基准)排名：

gpt-5.5 xhigh 完胜 opus-4.8 max

所以，聪明的你，选 Codex 还是 Claude code ?🙂

GPT

Claude

编码

20 replies • 2026-06-03 15:31:50 +08:00

cairnechen

11 days ago

4.8 等这波付费用户测试弄完了应该是会回升的，当然，这不影响我骂 A➗

409164

11 days ago

claude max 连 gpt5.5 high 都打不过吗？真的假的

Retas

11 days ago

聪明的人会选择双持～

lujiaosama

11 days ago

@Retas 两个都同时拉裤子呢。得等外星人发模型了。

409164

11 days ago

看了一下，做的只是 PASS@1 情况下的排行榜，实际上经过简单修正，还是 claude 的结果可用性更高

AS4694lAS4808

11 days ago via Android

没人用 gemini 3.5 flash 么，我觉得也挺好用的，而且速度能到 300+

Retas

11 days ago

@lujiaosama 两个都拉了就是天才程序员陨落了

lujiaosama

11 days ago

@Retas 天才程序员选择用国模凑合，天才程序员发现自己服务器被干崩了

dingawm

10 days ago

@409164 #5 "实际上经过简单修正，还是 claude 的结果可用性更高"
这个简单修改的结果哪里能看呢

409164

10 days ago

@dingawm 使用体感和员工反馈

dingawm

10 days ago

@409164 #10 6

jaoyina

10 days ago

@LonelyM

国模居然是 Kmi 第一，deepseek 8%？和第一名 70%差好多啊。

MIUIOS

10 days ago

最近 claude 的模型智力，真的是路过的狗都可以撒泡尿，继美国豆包后的美国千问，连一个分词器都分不明白的模型。

andrew2558

10 days ago

首先这个 gemini 3.5 flash 怎么哪都在吹，google 自己在吹，这些排行榜也是，自己用过就知道多差。根本干不了活，让他干活纯瞎编胡扯。而且这个榜上没有 cursor 的 composer 2.5,这个真的被严重低估了

Meursau1T

10 days ago

gemini 在前面的我一概认为是野榜

xyooyx

10 days ago

gemini：try creative coding in frontend

frantic

10 days ago

gemini 比 opus 4.6 都强;
sonnet 4.6 high 比 opus 4.6 max 强;
mino-v2.5-pro 比 GLM 5.1 强;

这榜单感觉也太野鸡了

nakun233

10 days ago

4.7 在解决同一个问题上，同一个提示词，给的解决方案不如 5.5 ，感觉在通用解决问题上，还没进 coding 之前 5.5 体感强一些，但到 coding 的时候 4.7 还是比 5.5 规范强一些，也会自主加单元测试和测试用例（没提示让他做

wcwcxiaobin

10 days ago

mimo 2.5 pro 都比 gemini 3.5 flash 还差，那不是拉完了？

fqyd

10 days ago

基本野榜了，kimi2.6 我的使用体验除了有个多模态外，全方位不如 deepseekv4 pro 。不可能有榜单里面差距的那么大