• 请不要在回答技术问题时复制粘贴 AI 生成的内容
hanbaoji
V2EX  ›  程序员

把 5.5 和 5.4 的 xhigh 做糖果测试对比, 5.5 完败

  •  
  •   hanbaoji · 2h 13m ago · 577 views

    做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。

    ❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5

    Graded 5/5 correct=4 accuracy=80.0%

    ❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5

    Graded 5/5 correct=1 accuracy=20.0%

    6 replies    2026-07-05 13:13:07 +08:00
    testsb
        1
    testsb  
       1h 52m ago
    有另一个类似问题,有网友说 5.5 `测试显示绝大多数时候 high 的智商都比 xhigh 高` 😂

    https://v2ex.com/t/1224353?p=1#reply20
    hanbaoji
        2
    hanbaoji  
    OP
       1h 21m ago
    @testsb 但是 high 在这个测试中直接全军覆没了,更惨。。。5.6 快出来吧,拯救一下 codex
    bellx
        3
    bellx  
       50 mins ago via Android
    我一直用 5.5 xhigh😂
    doraemonki
        4
    doraemonki  
       14 mins ago
    5.5 有 bug 或者说就是故意的,思考截断。用这个可以缓解 https://github.com/neteroster/CodexCont

    相关 issue https://github.com/openai/codex/issues/30364
    qxmqh
        5
    qxmqh  
       14 mins ago
    你这个测试没问题,到现在我仍然一直使用 5.4 。 我曾经深入对比过 5.5 和 5.4 。发现 5.4 的综合能力绝对比 5.5 强。
    BlueSkyXN
        6
    BlueSkyXN  
       11 mins ago
    https://github.com/BlueSkyXN/CPA-Core-LTS/blob/main/docs/lts/codex-client-context-degradation-defense.md

    谁用谁知道,另外开发和做题两码事,大部分开发不需要 516 以上的思考,在 gpt 中,1 成才会 516+

    Model: gpt-5.5-super Effort: xhigh Tests: 16 Parallel: 16 Timeout: 300s Retries: 0
    Model instructions: /Users/sky/.codex/gpt-5.5-custom-instructions.md

    # Answer In Out Reason Sum Resp TTFB TTFT TTFA P-TPS D-TPS AvgTPS Total OK
    -- ---------------------------------------- ----- ---- ------ ---- ---- ---- ----- ----- ----- ----- ------ ----- --
    1 按题目强调“形状靠手感可以分辨”,也就... 18905 4607 4142 823 465 1.8 81.2 81.3 10689 58 56 81.7 ✓
    2 按题目强调“形状靠手感可以分辨”的理解... 18905 4521 4142 695 379 1.3 81.9 82.0 14697 56 55 82.6 ✓
    3 最少是 **21 个**。\n\n 因为形状可以靠... 18905 6557 6191 1242 366 1.5 115.2 115.2 12552 57 57 115.8 ✓
    4 按题干“形状靠手感可以分辨”理解,可以... 18905 8205 7768 1184 437 1.7 142.4 142.5 10894 58 57 143.0 ✓
    5 结论:**最少取出 21 颗**。\n\n 按题目... 18905 5549 5178 963 371 1.4 100.3 100.4 13664 56 55 100.9 ✓
    6 答案:**21 个**。\n\n 按题干强调“形状... 18905 5562 5178 628 384 1.6 102.0 102.1 11936 55 54 102.6 ✓
    7 答案:**最少取出 21 个**。\n\n 做法是... 18905 6576 6214 1693 362 1.3 128.8 128.9 14034 51 51 129.4 ✓
    8 答案是 **21 个**,前提是按题干“形状靠... 18905 5165 4660 1595 505 1.7 93.7 93.8 11181 56 55 94.4 ✓
    9 按题目强调“形状靠手感可以分辨”,我理... 18905 5093 4660 849 433 1.9 98.3 98.4 10208 52 51 99.0 ✓
    10 最少需要 **21 个**。\n\n 因为形状可以... 18905 7075 6732 1012 343 1.5 197.9 198.0 12208 36 36 198.6 ✓
    11 最少是 **21 个**,策略是:摸出 **9 个... 18905 2922 2588 644 334 1.6 51.6 51.7 11719 56 54 54.1 ✓
    12 最少取 **21 个**。\n\n 按题干“形状靠手... 18905 5032 4660 912 372 1.4 84.3 84.3 13533 60 59 84.9 ✓
    13 最少是 **21 个**。\n\n 按题意利用“形状... 18905 9153 8804 2361 349 1.6 167.1 167.2 11529 55 54 169.4 ✓
    14 如果利用题目给出的“形状可凭手感分辨”... 18905 4546 4142 1093 404 1.6 83.3 83.4 11777 55 54 84.0 ✓
    15 最少需要取出 **21 个**。\n\n 做法是利... 18905 9632 9322 2194 310 1.4 169.5 169.6 13726 56 56 171.9 ✓
    16 答案:**21 个**。\n\n 因为题目说明形状... 37810 9501 8802 1889 699 1.6 161.3 161.4 23226 59 58 163.7 ✓

    Graded 16/16 correct=16 accuracy=100.0% total=198.6s
    Reason groups:
    reason=516 count=0 correct=0 accuracy=-
    reason=1034 count=0 correct=0 accuracy=-
    normal count=16 correct=16 accuracy=100.0%
    failed count=0
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2874 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 05:25 · PVG 13:25 · LAX 22:25 · JFK 01:25
    ♥ Do have faith in what you're doing.