V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Seck
V2EX  ›  程序员

kimi K2 Thinking 都这样的玩的话,如何作为参考依据呢?纯刷榜?

  •  
  •   Seck · 12 天前 · 3572 次点击
    体验和榜单的不一致,没有个说法吗?
    纯纯刷榜?


    20 条回复    2025-11-13 15:16:07 +08:00
    daybreakfangyang
        1
    daybreakfangyang  
       12 天前
    邪修
    jasonjie2015
        2
    jasonjie2015  
       12 天前   ❤️ 3
    每次国产大模型上新版本都是说超越了 Claude ,但是实战基本上是很明显感受的到差距的。
    clarkethan
        3
    clarkethan  
       12 天前   ❤️ 2
    放心,大家都这么完,不止国内厂商,只是有些告诉你了,有些你不知道而已,还是以实际使用体验为准吧
    xuhengjs
        4
    xuhengjs  
       12 天前
    所以,是不是 Kimi k2 跑出来的,大力飞砖也是水平啊
    ptstone
        5
    ptstone  
       12 天前
    可能前端 css,js,java python c++ 这种最通用的语言和框架确实,国产的还可以,前端 web 确实感觉很优秀,但凡小众的东西,开源框架什么的,国产的真的不懂,知识面太窄,训练的东西就是那些科目,其他东西都是瞎回答
    xiqingongzi
        6
    xiqingongzi  
       12 天前   ❤️ 1
    是的。作为某小龙的模型产品,补充一些我的看法(仅个人看法)
    评测和体感不一致

    1. 作为终端用户,我的建议是,不要太相信榜单,只作为参考,甚至也只能作为参考。原因是榜单本身是一个开卷考试,理论上如果你想考高分,你可以塞尽可能多的数据拟合题目,以获得足够高的分数。(为什么不是每个模型都刷满分?因为还需要加入其他类型的数据,以确保模型的在其他榜单效果上足够好)。所以,榜单看看就行。关键还是自己的使用体感或者自己的评测指标。

    2. 关于打榜推理:打榜推理的好处是用量可控加时间短,所以可以上八路推理;得到比较好的效果。但如果是日常使用,一个是损耗比较大,因为日常的问题往往不需要那么多并行推理选其一(大部分问题没那么复杂,这也是为啥 claude code 把 ultrathink 作为一个单独的 magic word 来使用);另外一块是要考虑到成本,国内的竞争非常的卷,以至于各家可能都是贴着成本在做,甚至亏本在卖 API ,这样导致其实很难会选择给你最强的模型推理方案。
    serco
        7
    serco  
       12 天前
    是不是 heavy 跑出来不是 huggingface 上直接可以看到的吗? https://huggingface.co/moonshotai/Kimi-K2-Thinking
    yuhaofe
        8
    yuhaofe  
       12 天前   ❤️ 2
    就不能自己去看一眼吗,heavy 对标的也是其他模型的类似模式


    Heavy Mode: K2 Thinking Heavy Mode employs an efficient parallel strategy: it first rolls out eight trajectories simultaneously, then reflectively aggregates all outputs to generate the final result. Heavy mode for GPT-5 denotes the official GPT-5 Pro score.
    yuhaofe
        9
    yuhaofe  
       12 天前   ❤️ 2
    https://moonshotai.github.io/Kimi-K2/thinking.html
    而且官方的技术博客着重晒的几个图表根本就没有用 heavy mode 的成绩

    Leoking222
        10
    Leoking222  
       12 天前
    国内:跑分没输过,实战没赢过
    Leoking222
        11
    Leoking222  
       12 天前
    @jasonjie2015 国产所有的模型都在对比 Claude ,但其实他们都只达到了 Claude sonnet 3.7 的水平 🤣
    maolon
        12
    maolon  
       11 天前
    首先所有榜单都只能是参考,每个人的用法天差地别,其次这些榜单每一个都是有侧重点的
    另外还有一个很简单的判断方法,什么时候 claude 和 openai 开始对标国产模型了,那他们就真超越了。
    谁对标谁就用被对标的那个, simple as that
    fbu11
        13
    fbu11  
       11 天前
    跟国内还是国外没关系,GPT5 也一样,每个大模型的跑分榜单模式都是这样的,他们上榜说是吊打 XXX 模型,都是有特定条件的
    lance07
        14
    lance07  
       11 天前   ❤️ 1
    都这样,gpt 之前还测评作弊。差距有但不是在这里
    snw
        15
    snw  
       11 天前 via Android
    试过用免费版的 K2 Thinking 模式找些数据,结果思维陷入死循环了:
    > 一会儿说我在网上找到了一个数据 a ,但很难找到其他数据,也许我应该去官方信源找数据。
    > 过了十来分钟,又说我在网上找到了一个数据 a (和上面一样),但很难找到其他数据,也许我应该去官方报告找数据
    > ......
    如此循环了将近十次,然后直接清空了前面所有思考过程,输出空白。旁边提示可以试试付费版投入更多算力😂
    snw
        16
    snw  
       11 天前 via Android
    @snw
    又看了下,是提示“深度研究额度已用尽”。
    反正看试用版这表现我是不敢付费的,看起来额度被死循环耗尽了。
    zhangeric
        17
    zhangeric  
       11 天前
    楼主就是把外国人想的太好了啊.
    zhzy
        18
    zhzy  
       11 天前
    Gemini/GPT 有的时候还是能很明显感觉到降智的(即使是付费), 感觉这种虽然很难受但是也没什么办法
    jamesjammy061
        19
    jamesjammy061  
       11 天前
    GPT 降智太严重了
    haoxiaoru
        20
    haoxiaoru  
       8 天前   ❤️ 1
    那个推主是纯纯的误解:heavy 模式对比的是其他模型的 heavy 模式,而且结果只放到了大对比表中,宣传的主 Benchmark 图里都是普通模式的结果,根本没有放 heavy 模式的结果。见这里的脚注文字 https://huggingface.co/moonshotai/Kimi-K2-Thinking
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2759 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 06:28 · PVG 14:28 · LAX 22:28 · JFK 01:28
    ♥ Do have faith in what you're doing.