• 请不要在回答技术问题时复制粘贴 AI 生成的内容
LonelyM
V2EX  ›  程序员

GPT 完胜 Claude

  •  
  •   LonelyM · 11 days ago · 3742 views

    🚀根据 DeepSWE (最佳编码基准)排名:

    gpt-5.5 xhigh 完胜 opus-4.8 max

    所以,聪明的你,选 Codex 还是 Claude code ?🙂

    20 replies    2026-06-03 15:31:50 +08:00
    cairnechen
        1
    cairnechen  
       11 days ago
    4.8 等这波付费用户测试弄完了应该是会回升的,当然,这不影响我骂 A➗
    409164
        2
    409164  
       11 days ago
    claude max 连 gpt5.5 high 都打不过吗?真的假的
    Retas
        3
    Retas  
       11 days ago
    聪明的人会选择双持~
    lujiaosama
        4
    lujiaosama  
       11 days ago
    @Retas 两个都同时拉裤子呢。得等外星人发模型了。
    409164
        5
    409164  
       11 days ago
    看了一下,做的只是 PASS@1 情况下的排行榜,实际上经过简单修正,还是 claude 的结果可用性更高
    AS4694lAS4808
        6
    AS4694lAS4808  
       11 days ago via Android
    没人用 gemini 3.5 flash 么,我觉得也挺好用的,而且速度能到 300+
    Retas
        7
    Retas  
       11 days ago
    @lujiaosama 两个都拉了就是天才程序员陨落了
    lujiaosama
        8
    lujiaosama  
       11 days ago
    @Retas 天才程序员选择用国模凑合,天才程序员发现自己服务器被干崩了
    dingawm
        9
    dingawm  
       10 days ago
    @409164 #5 "实际上经过简单修正,还是 claude 的结果可用性更高"
    这个简单修改的结果哪里能看呢
    409164
        10
    409164  
       10 days ago
    @dingawm 使用体感和员工反馈
    dingawm
        11
    dingawm  
       10 days ago
    @409164 #10 6
    jaoyina
        12
    jaoyina  
       10 days ago
    @LonelyM

    国模居然是 Kmi 第一,deepseek 8%?和第一名 70%差好多啊。
    MIUIOS
        13
    MIUIOS  
       10 days ago
    最近 claude 的模型智力,真的是路过的狗都可以撒泡尿, 继美国豆包后的美国千问,连一个分词器都分不明白的模型。
    andrew2558
        14
    andrew2558  
       10 days ago
    首先这个 gemini 3.5 flash 怎么哪都在吹,google 自己在吹,这些排行榜也是,自己用过就知道多差。根本干不了活,让他干活纯瞎编胡扯。而且这个榜上没有 cursor 的 composer 2.5,这个真的被严重低估了
    Meursau1T
        15
    Meursau1T  
       10 days ago
    gemini 在前面的我一概认为是野榜
    xyooyx
        16
    xyooyx  
       10 days ago
    gemini:try creative coding in frontend
    frantic
        17
    frantic  
       10 days ago
    gemini 比 opus 4.6 都强;
    sonnet 4.6 high 比 opus 4.6 max 强;
    mino-v2.5-pro 比 GLM 5.1 强;

    这榜单感觉也太野鸡了
    nakun233
        18
    nakun233  
       10 days ago
    4.7 在解决同一个问题上,同一个提示词,给的解决方案不如 5.5 ,感觉在通用解决问题上,还没进 coding 之前 5.5 体感强一些,但到 coding 的时候 4.7 还是比 5.5 规范强一些,也会自主加单元测试和测试用例(没提示让他做
    wcwcxiaobin
        19
    wcwcxiaobin  
       10 days ago
    mimo 2.5 pro 都比 gemini 3.5 flash 还差,那不是拉完了?
    fqyd
        20
    fqyd  
       10 days ago
    基本野榜了,kimi2.6 我的使用体验除了有个多模态外,全方位不如 deepseekv4 pro 。不可能有榜单里面差距的那么大
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2571 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 74ms · UTC 16:09 · PVG 00:09 · LAX 09:09 · JFK 12:09
    ♥ Do have faith in what you're doing.