V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
RiverMud
V2EX  ›  分享发现

星火认知、文心一言、ChatGPT 哪个强?简单测了一下。

  •  
  •   RiverMud · 2023-05-10 02:16:48 +08:00 via iPhone · 2143 次点击
    这是一个创建于 582 天前的主题,其中的信息可能已经有所发展或是发生改变。
    按照微博阑夕设计的问题问了一下星火认知、文心一言和 gpt3.5 模型的 ChatGPT 。

    懒得打字了,所以只问了前六个问题。星火认知答对 4 个,文心一言答对 1 个,gtp3.5 模型的 ChatGPT 答对 4 个。gpt4 没有就没测,哪位试试?

    问题连接: https://video.weibo.com/show?fid=1034:4889999422980118

    这些问题以及测试方法并不一定科学、严谨,结果仅供诸君参考。

    另外,一个刚推出的中文通用大模型综合性基准 SuperCLUE 认为星火认知仅次于 gpt3.5 和 gpt4 。

    项目地址: https://github.com/CLUEbenchmark/SuperCLUE

    这算不算科大讯飞的利好,是不是可以满仓 002230 了?

    以上内容均为对客观过程及现实的描述,不代表个人认同方法、结果及排名,也不构成任何投资建议,投资者盈亏自负,本人不承担任何直接及连带责任,股市有风险,入市需谨慎。
    6 条回复    2023-05-10 14:51:56 +08:00
    dunizb
        1
    dunizb  
       2023-05-10 03:27:23 +08:00 via Android
    国内的还不都是半斤八两不相上下,不会有特别强的
    air00dd
        2
    air00dd  
       2023-05-10 07:02:12 +08:00   ❤️ 1
    样本太小、样本分布范围也不一定多科学,参考价值不大。

    而且 GPT 是不断迭代的,训练模型是人为操控的容易加私货,像手机厂商特意为“跑分”做优化也说不定😏,或者勾结评测人员
    oswinw
        3
    oswinw  
       2023-05-10 09:53:19 +08:00
    wangmou
        4
    wangmou  
       2023-05-10 10:06:10 +08:00
    文心现在还不如刚公布的时候有意思,那个时候问他 7 个领导 6 个凳子应该怎么做,回答和百度搜索前几个一样,纯纯人情事故,现在回复就是类似 gpt3.5 那种了。。。
    xieqiqiang00
        5
    xieqiqiang00  
       2023-05-10 13:17:02 +08:00
    @air00dd 的确,什么阿猫阿狗在刻意设计的问题下都能表现的不错
    jay52jolinyyds
        6
    jay52jolinyyds  
       2023-05-10 14:51:56 +08:00 via Android
    赶紧满仓,不要犹豫了😄
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5521 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:44 · PVG 10:44 · LAX 18:44 · JFK 21:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.