V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
spoock1024
V2EX  ›  OpenAI

不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V

  •  
  •   spoock1024 · 18 天前 · 1180 次点击

    原文链接:挑战 GPT-4V !马斯克发布 Grok-1.5V

    OpenAI 刚刚发布了最强的 GPT4-Turbo 模型。

    就在 4 月 12 号,马斯克就推出了 Grok-1.5V ,Grok-1.5V 模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。

    Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

    官方博文表示:「 Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

    Grok-1.5V 测试结果

    我们看到了 Grok-1.5V 与 GPT-4V 、Claude 3Sonnet 、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。

    Grok 表示:「 Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中,Grok 的表现优于同类产品。对于下面的所有数据集,我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

    但是从我自己的使用体验来看,GPT4-Turbo 目前还是最好用的,尤其是在编码方面,其他的大模型还是和 GPT4-Turbo 有很大的差距。

    按照 ChatGPT4 Turbo 升级教程 ,可以升级体验下最新版本 GPT4-Turbo 。

    referer:https://x.ai/blog/grok-1.5v

    目前,Grok-1.5V 将很快对我们的早期测试者和现有 Grok 用户开放,还没有开放源代码。

    Grok-1.5V 实际表现

    referer:https://x.ai/blog/grok-1.5v

    虽然 Grok-1.5V 没有完全对用户开放,但是在博客中展示了 Grok-1.5V 的七个示例。

    这所有的例子中,都是要求 Grok-1.5V 识别图像,然后回答问题

    分别是:

    • 根据图表编写代码
    • 计算卡路里
    • 根据图片讲故事
    • 解释梗图
    • 将表格转换为 CSV 文件格式
    • 辨别木头的腐朽程度
    • 解决 Leetcode 中等难度的问题

    看下最后解决 LeetCode 中等难度题目的例子吧

    提示词

    Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

    Grok 回答

    def find_triplets(nums):
        result = []
        nums.sort()
        
        for i in range(len(nums) - 2):
            if i > 0 and nums[i] == nums[i - 1]:
                continue
            
            target = -nums[i]
            left = i + 1
            right = len(nums) - 1
            
            while left < right:
                if nums[left] + nums[right] == target:
                    result.append([-target, nums[left], nums[right]])
                    left += 1
                    right -= 1
                    while left < right and nums[left] == nums[left - 1]:
                        left += 1
                    while left < right and nums[right] == nums[right + 1]:
                        right -= 1
                elif nums[left] + nums[right] < target:
                    left += 1
                else:
                    right -= 1
        
        return result
    

    我看了下官方给出的示例,看起来 Grok 1.5V 的 OCR 功能确实还可以。

    大家有兴趣,也可以去看看官网给出的例子。

    希望 Grok-1.5V 给出的例子是真是的,不要到后面开放的时候被打脸了。(不过马斯克这个人真不太好说

    总结

    从 Grok-1.5V 放出来的实例来看,Grok-1.5V 的图片识别能力还是很强的。毕竟 Grok-1.5V 是马斯克的,估计是借鉴了特斯拉的图像识别技术。

    ChatGPT 刚刚更新了最新最强大的 GPT4-Turbo ,马斯克这边立马放出来了 Grok-1.5V 。

    看来各家的大模型技术又要卷起来了啊。

    现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,都给我卷起来!

    现在工作都离不开 ChatGPT 了。希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户,

    2 条回复    2024-04-15 14:16:02 +08:00
    feirisu
        1
    feirisu  
       17 天前
    总感觉这些评测指标不是很靠谱。
    我测试过一段字节压缩算法给 AI 解释并让给出优化方案,测试了 Opus ,和 GPT4 ,Opus 回答很明显不行,而 GPT4 确实能指出可优化的点,不知道是否是内置 prompt 的差距。
    如果评测上各项指标都接近,我觉得至少应该给出类似的或接近的答案。
    spoock1024
        2
    spoock1024  
    OP
       17 天前
    @feirisu 我自己体验,GPT4 也是最好用的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1122 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 17:47 · PVG 01:47 · LAX 10:47 · JFK 13:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.