V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kdbtg91
V2EX  ›  OpenAI

如何评价 OpenAI 的 o3?

  •  
  •   kdbtg91 · 13 小时 16 分钟前 · 1884 次点击

    看测评,推理能力有很大进步,自适应思考模式还行,但是推理成本确实有点太高了。如果有申请到安全测试的欢迎说一下使用感受。

    22 条回复    2024-12-21 21:20:26 +08:00
    yzding
        1
    yzding  
       13 小时 6 分钟前
    OpenAI 继续这种 ppt 发布迟早被超
    coefuqin
        2
    coefuqin  
       13 小时 1 分钟前
    @yzding 一直引领业界前进的方向,新的 idea 都是他们整的,怎么超?
    gaobh
        3
    gaobh  
       12 小时 57 分钟前 via iPhone
    太贵,没卵用
    argsno
        4
    argsno  
       12 小时 50 分钟前
    为了发而发
    paopjian
        5
    paopjian  
       12 小时 41 分钟前
    挺可怕的, 这才三年吧, 三年时间, AI 已经可以追上一个"普通"人类的心智水平, 感觉办公室白领的很多工作一定会被去掉, 只是成本的问题了. 真正的科技革命
    nicaiwss
        6
    nicaiwss  
       12 小时 40 分钟前 via iPhone
    普通人能做的就是买点相关股票
    SenLief
        7
    SenLief  
       12 小时 39 分钟前
    @paopjian openai 最先替代的应该是程序员吧,它在程序推理上已经强过大部分的程序员了。办公室白领这种恰恰很难被替代,因为主要是人情世故,而不是理论。
    yzding
        8
    yzding  
       12 小时 38 分钟前
    @coefuqin 首先 OpenAI 离职了一批核心人员,还有最近 Google 那个 ai studio 试试看,感觉就是为狙击 OpenAI 200 美元套餐的,Google 给开发者用这个还完全免费效果好
    trungdieu031
        9
    trungdieu031  
       12 小时 11 分钟前   ❤️ 1
    超级强,距离上一代 o1 进步巨大。 那些说是画大饼没啥用的我只能说你们开心就好~
    如果你对报告里那些测试集有个大概的认识,就会知道这种进步意味着什么。别的不说就拿 frontier math 这种一下从完全不会到 25% 的真确率,arc-agi 这种专为 AI 设计的难度考题一次性从 35% 上升到 75% ...
    看来 Sora 期货带来的后遗症太强了,导致现在 OpenAI 一有延迟发布的动向都会被说搞期货 ~
    长远来看 ( 10 年内),AI 取代 99% 人的工作是板上钉钉的事~
    vfx666
        10
    vfx666  
       12 小时 9 分钟前 via iPhone
    @trungdieu031 到时候都是机器人上班,共产主义时代真的要来了吗🤓
    haiku
        11
    haiku  
       12 小时 8 分钟前
    @trungdieu031 看看 Google 和 Claude 会不会跟进,推理成本太高了,英伟达芯片看起来又供不应求了
    youthfire
        12
    youthfire  
       12 小时 1 分钟前 via iPhone   ❤️ 1
    o1 和 claude3.5 sonnet 1022 伯仲间,价格却直接翻了 10 倍,关键还特别慢,这 o3 价格还不上天了。Openai 现在 ppt 能力在不断上升,成品看起来不是那么尽如人意。几家里面,它家是最喜欢动态调整算力的,产品总是比发行时拉垮很多,有机会用上第一批成品的都会有这个感觉。开满算力的 gpt4 并不比现在的 4o 差多少。所以 o3 理论上会很强,实际推出后应用不看好。
    Sharuru
        13
    Sharuru  
       12 小时前
    每次都是发新模型,然后老模型就变笨。
    trungdieu031
        14
    trungdieu031  
       11 小时 59 分钟前
    @haiku 从报告上看,目前推理成本太高确实是最大的问题。
    但我对推理成本的下降持乐观态度。至少在 2030 年之前,gpu 的推理成本是稳步下降的,我直观体验上至少比摩尔定律描述的下降速度要快。
    给个不精确数字的话,我感觉每年推理成本至少比前年下降 1/4 ~
    idblife
        15
    idblife  
       11 小时 50 分钟前
    还没人能用上呢,如何评价?
    你是骗回复的吧
    trungdieu031
        16
    trungdieu031  
       11 小时 49 分钟前
    @youthfire o1 整体上还是要强于 claude3.5 的。 目前 llm 领域的顶级三家 OpenAI , Google, Anthropic 的模型,OpenAI 整体推理能力最强,幻觉最少,Anthropic 的对齐最好,最有人格化特征,在情感哲学方面体验最好,编程方面因为 finetune 过,也是在目前可用的最强梯队,Google 新出的 gemini2.0 版本多模态能力最强,应该对档的 O 和 A 家下一代基础大模型。
    o1 代表了 RL + LLM 新范式。在能用基础模型解决的问题上没有显著的优势。只有长链的推理能力才能体验优点 ~
    Donaldo
        17
    Donaldo  
       10 小时 30 分钟前
    @vfx666 #10 步子迈的太快的话,会有很长的阵痛期。。
    openmynet
        18
    openmynet  
       9 小时 20 分钟前
    o1 到 o3,性能是线性增长,成本却是指数增长。
    mumbler
        19
    mumbler  
       9 小时 16 分钟前
    如果是真的,贵不是问题,就怕跟 sora 一样根本达不到宣传效果,卖期货,拖一年拿出来发现低于市场上其他产品
    asanelder
        20
    asanelder  
       5 小时 6 分钟前
    @trungdieu031 有生看到共产主义,太兴奋啦!!!
    iloveoovx
        21
    iloveoovx  
       4 小时 7 分钟前   ❤️ 4
    洗脑真牛逼,还有这么多人对恐怖的共产主义感到兴奋
    midstream
        22
    midstream  
       2 小时 52 分钟前
    生产里解决不了问题的还是解决不了,之前 o1 能解决的可能使用体验会更好点,总之用处不大
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2093 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 16:12 · PVG 00:12 · LAX 08:12 · JFK 11:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.