![]() |
1
wanniwa 14 小时 14 分钟前 ![]() |
![]() |
2
clemente 14 小时 9 分钟前 ![]() 找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的
1. 提示词对输出的提升 可能 更重要 2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几 |
3
ly841000 14 小时 5 分钟前
claude 后端不行,写个三缓冲都写不明白
|
4
digd 14 小时 3 分钟前
chatgpt 排名强,体验拉
|
5
vopsoft 14 小时 3 分钟前 via Android ![]() 可拉到吧
claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比 |
![]() |
6
klo424 14 小时 2 分钟前
claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
|
![]() |
7
enchilada2020 13 小时 59 分钟前 via Android
都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
|
8
Cheez 13 小时 45 分钟前
claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
|
9
zgjldxdyt1 13 小时 39 分钟前
别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
|
10
RandyLuo 13 小时 38 分钟前
|
![]() |
11
chengyiqun 13 小时 27 分钟前
claude 上下文 200k token
deepseek 64K token 这还比啥编程领域, 长上下文明显更有优势 |
![]() |
12
AoEiuV020JP 13 小时 26 分钟前
我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
|
![]() |
13
InkStone 13 小时 18 分钟前
不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
|
![]() |
14
HUZHUANGZHUANG 13 小时 14 分钟前
我不关心什么跑分,我只关心谁用的顺手
|
![]() |
15
Promtheus 12 小时 40 分钟前
懂了 claude 3.7 最强
|
![]() |
16
seven777 12 小时 26 分钟前
数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
可以反驳,但我不接受. "竞赛制编程"有什么明显的不同和特点? |
17
iflint 12 小时 5 分钟前
@enchilada2020 这么牛🐂
|
![]() |
18
zekeluii 12 小时 5 分钟前
寫代碼確實是 Claude 3.7 最強
|
![]() |
19
windyboy 11 小时 55 分钟前
奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
|
![]() |
20
cheng6563 11 小时 54 分钟前
所以你整天竞赛还是整天 CURD ?
|
21
securityCoding 11 小时 48 分钟前
@iflint 抓 bug 我感觉几个主流模型都非常强
|
22
HEGGRIA 11 小时 39 分钟前
3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
|
![]() |
23
LHN 11 小时 36 分钟前 ![]() 这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
|
24
Rickkkkkkk 11 小时 33 分钟前
这下跑分的尴尬之处就体现出来了
大家真正都在用的东西,谁更好用不是跑分能体现的 |
![]() |
25
ytmsdy 11 小时 32 分钟前
反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
|
26
aloxaf 11 小时 21 分钟前
编程排名目前只认 https://aider.chat/docs/leaderboards/
Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。 |
27
Yuanlaoer 11 小时 21 分钟前
所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
|
28
mxT52CRuqR6o5 11 小时 16 分钟前
你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的 |
![]() |
29
jsutfun 11 小时 13 分钟前
刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
|
30
aloxaf 11 小时 10 分钟前 ![]() 还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。
上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下: o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。 claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。 anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。 |
![]() |
31
murmur 10 小时 44 分钟前 ![]() claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了
|
32
idealhs 10 小时 40 分钟前
claude 暴力输出上千行代码不带报错的,其他家做得到吗
|
![]() |
33
seven777 10 小时 14 分钟前
@murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的. |
![]() |
34
murmur 10 小时 8 分钟前
@seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去
而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。 |
35
muzei233 10 小时 4 分钟前 via Android
和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds
|
![]() |
36
ychost 7 小时 57 分钟前
anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面
|
![]() |
37
maix27 6 小时 49 分钟前
手机电脑手机年年出新,你年年换吗?
编程语言次次出新,你是不是也在追逐? 我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。 |
38
stormsuncc 6 小时 2 分钟前
who care
|
![]() |
39
ClaudeAi 4 小时 27 分钟前 via Android
大家说得对
|
![]() |
40
mogutouer 4 小时 16 分钟前
sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。
o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。 不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。 |
![]() |
41
uncleroot 4 小时 11 分钟前
一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域 —— 这个不正是大多数人所需要的
|