V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
tool3d
V2EX  ›  程序员

感觉一些人对 claude 3.7 sonnet 有误解,以为是编程领域最强的模型。

  •  1
     
  •   tool3d · 14 小时 27 分钟前 · 4261 次点击
    其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

    另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

    下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

    41 条回复    2025-03-17 22:53:41 +08:00
    wanniwa
        1
    wanniwa  
       14 小时 14 分钟前   ❤️ 29
    嗯,都是牛马,谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强
    clemente
        2
    clemente  
       14 小时 9 分钟前   ❤️ 1
    找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

    1. 提示词对输出的提升 可能 更重要
    2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几
    ly841000
        3
    ly841000  
       14 小时 5 分钟前
    claude 后端不行,写个三缓冲都写不明白
    digd
        4
    digd  
       14 小时 3 分钟前
    chatgpt 排名强,体验拉
    vopsoft
        5
    vopsoft  
       14 小时 3 分钟前 via Android   ❤️ 1
    可拉到吧
    claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比
    klo424
        6
    klo424  
       14 小时 2 分钟前
    claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
    enchilada2020
        7
    enchilada2020  
       13 小时 59 分钟前 via Android
    都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
    Cheez
        8
    Cheez  
       13 小时 45 分钟前
    claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
    zgjldxdyt1
        9
    zgjldxdyt1  
       13 小时 39 分钟前
    别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
    RandyLuo
        10
    RandyLuo  
       13 小时 38 分钟前
    chengyiqun
        11
    chengyiqun  
       13 小时 27 分钟前
    claude 上下文 200k token
    deepseek 64K token
    这还比啥编程领域, 长上下文明显更有优势
    AoEiuV020JP
        12
    AoEiuV020JP  
       13 小时 26 分钟前
    我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
    InkStone
        13
    InkStone  
       13 小时 18 分钟前
    不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
    HUZHUANGZHUANG
        14
    HUZHUANGZHUANG  
       13 小时 14 分钟前
    我不关心什么跑分,我只关心谁用的顺手
    Promtheus
        15
    Promtheus  
       12 小时 40 分钟前
    懂了 claude 3.7 最强
    seven777
        16
    seven777  
       12 小时 26 分钟前
    数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
    可以反驳,但我不接受.
    "竞赛制编程"有什么明显的不同和特点?
    iflint
        17
    iflint  
       12 小时 5 分钟前
    @enchilada2020 这么牛🐂
    zekeluii
        18
    zekeluii  
       12 小时 5 分钟前
    寫代碼確實是 Claude 3.7 最強
    windyboy
        19
    windyboy  
       11 小时 55 分钟前
    奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
    cheng6563
        20
    cheng6563  
       11 小时 54 分钟前
    所以你整天竞赛还是整天 CURD ?
    securityCoding
        21
    securityCoding  
       11 小时 48 分钟前
    @iflint 抓 bug 我感觉几个主流模型都非常强
    HEGGRIA
        22
    HEGGRIA  
       11 小时 39 分钟前
    3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
    LHN
        23
    LHN  
       11 小时 36 分钟前   ❤️ 1
    这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
    Rickkkkkkk
        24
    Rickkkkkkk  
       11 小时 33 分钟前
    这下跑分的尴尬之处就体现出来了

    大家真正都在用的东西,谁更好用不是跑分能体现的
    ytmsdy
        25
    ytmsdy  
       11 小时 32 分钟前
    反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
    aloxaf
        26
    aloxaf  
       11 小时 21 分钟前
    编程排名目前只认 https://aider.chat/docs/leaderboards/

    Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。
    Yuanlaoer
        27
    Yuanlaoer  
       11 小时 21 分钟前
    所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
    mxT52CRuqR6o5
        28
    mxT52CRuqR6o5  
       11 小时 16 分钟前
    你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
    两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的
    jsutfun
        29
    jsutfun  
       11 小时 13 分钟前
    刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
    aloxaf
        30
    aloxaf  
       11 小时 10 分钟前   ❤️ 2
    还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。

    上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下:
    o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。
    claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。

    anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。
    murmur
        31
    murmur  
       10 小时 44 分钟前   ❤️ 1
    claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了
    idealhs
        32
    idealhs  
       10 小时 40 分钟前
    claude 暴力输出上千行代码不带报错的,其他家做得到吗
    seven777
        33
    seven777  
       10 小时 14 分钟前
    @murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
    cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的.
    murmur
        34
    murmur  
       10 小时 8 分钟前
    @seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去

    而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。
    muzei233
        35
    muzei233  
       10 小时 4 分钟前 via Android
    和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds
    ychost
        36
    ychost  
       7 小时 57 分钟前
    anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面
    maix27
        37
    maix27  
       6 小时 49 分钟前
    手机电脑手机年年出新,你年年换吗?
    编程语言次次出新,你是不是也在追逐?

    我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。
    stormsuncc
        38
    stormsuncc  
       6 小时 2 分钟前
    who care
    ClaudeAi
        39
    ClaudeAi  
       4 小时 27 分钟前 via Android
    大家说得对
    mogutouer
        40
    mogutouer  
       4 小时 16 分钟前
    sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。
    o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。

    不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。
    uncleroot
        41
    uncleroot  
       4 小时 11 分钟前
    一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域 —— 这个不正是大多数人所需要的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1080 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 19:05 · PVG 03:05 · LAX 12:05 · JFK 15:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.