V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
14
V2EX  ›  OpenAI

发现一个能够区分出 GPT-4 和 Claude2 与其他大模型的问题

  •  
  •   14 · 2023-08-14 20:21:42 +08:00 · 2051 次点击
    这是一个创建于 470 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:我记得有个 s 开头的命令行工具,简化了查看 k8s 日志的方式,忘记是哪个了

    模型 回答
    GPT-4(POE) 回答并介绍了 stern 的用法
    Claude-2-100k(POE) 回答并介绍了 stern 的用法
    GitHub Copilot Chat 回答并介绍了 stern 的用法
    GPT-3.5(POE) 回答并介绍了 kubectl logs 的用法
    Claude-instant-100k(POE) 回答并介绍了 kubectl logs 的用法
    Google-PaLM(POE) 回答并介绍了 kubectl logs 的用法
    Llama-2-70b(POE) 回答并介绍了 kubectl logs 的用法
    百度文心一言 回答并介绍了 kubectl logs 的用法
    阿里通义千问 回答并介绍了 kubectl logs 的用法

    GPT-4 和 Claude-2-100k 的结果正确。之所以需要这个问题是想弄清楚 GitHub Copilot Chat 到底是不是 GPT-4 ,现在看来应该是的。

    11 条回复    2023-08-17 23:10:45 +08:00
    qq565425677
        1
    qq565425677  
       2023-08-14 20:55:21 +08:00
    官网的 3.5 也能回答对 stern
    ggvoking
        2
    ggvoking  
       2023-08-15 00:28:09 +08:00 via iPhone
    我用 Poe 的 Assistant (gpt3.5)能答对啊
    14
        3
    14  
    OP
       2023-08-15 08:49:14 +08:00
    @qq565425677 @ggvoking

    我又测试了几次,3.5 确实有时候也能回答正确了,只是我第一次测试的时候回答是错的:

    GL8885
        4
    GL8885  
       2023-08-15 09:55:11 +08:00 via Android
    有些问题其他模型会拒绝回答,只有 GPT4 会回答。
    taotaodaddy
        5
    taotaodaddy  
       2023-08-15 22:57:39 +08:00
    稍微复杂一点的编程问题,GPT4 的正确率是碾压级的,CLAUDE2 还只能是个宝宝
    maymayblog
        6
    maymayblog  
       2023-08-16 16:02:21 +08:00
    这是我镜像站 3.5 的回复:可能你在说的命令行工具是 stern 。Stern 是一个用于简化查看多个容器的 Kubernetes Pod 日志的工具。它可以按照 Pod 的 labels 、容器名称等进行筛选,并将多个容器的日志合并输出,便于查看和分析。你可以通过在终端输入 stern 命令来使用它。
    14
        7
    14  
    OP
       2023-08-16 21:33:06 +08:00
    @maymayblog 我测试 3.5 也能成功,但是不够稳定,多问几次会回答错误,不知道还有没有更好的区分方法
    14
        8
    14  
    OP
       2023-08-16 21:37:10 +08:00
    @taotaodaddy 我现在主要用 GitHub Copilot Chat ,因为就在 VS Code 侧边栏很方便,所以我很在意 GitHub Copilot Chat 到底是不是 GPT-4 ,现在测试下来应该是定制过的 GPT-4
    taotaodaddy
        9
    taotaodaddy  
       2023-08-16 22:24:13 +08:00
    @14 那就太划算了,羡慕
    其实我买 poe 订阅也就是为了辅助写代码,之前订阅过 2 个月 github copilot,但一直没能通过 copilot x 的申请,而 github copilot 的代码预测成功率真心不能接受(不知道为啥有些人就喊 copilot 的代码预测香,我喊不出来)
    试了后 gpt4 感觉的 4 的代码能力还是强,而且同一个问题,即使假设 3.5 也能回答正确,但是其语言组织体现出的逻辑缜密性也是不如 4 的
    但是好担心 gpt4 会降智
    yinmin
        10
    yinmin  
       2023-08-16 22:44:38 +08:00 via iPhone   ❤️ 1
    @14 #8 区分 3.5 和 4 的问题:如何制作番茄炒钢丝球,3.5 会直接给你菜谱,4 会告诉你没这个菜。
    14
        11
    14  
    OP
       2023-08-17 23:10:45 +08:00
    @taotaodaddy Copilot 用来补全那种照猫画虎的代码很合适,比如下一行和上一行很相似的时候。还有就是补全一下重复性代码,比如我在 Python 文件末尾写个 if 稍微等一下肯定能出来 if __name__ == '__main__': 后面自动调用当前文件的未使用的函数。如果我认为他不能补全好我就快速写或者忽略他的补全,认为他能写好就稍微停顿一下,基本上我只让他干我认为他能干好的活,有时候可能写个好的命名比如 one_hour_ago = 我知道他肯定能补全正确后面的,很少会让他写大段不确定的代码。Copilot 的优势是不用离开代码上下文就能快速完成一些小事,复杂的问题还是需要组织好语言让 GPT-4 处理,比如描述一个复杂的需求让 GPT-4 写大段代码实现某个功能。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3441 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 00:05 · PVG 08:05 · LAX 16:05 · JFK 19:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.