不服 GPT4-Turbo！马斯克发布最新多模态大模型 Grok-1.5V

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 558 天前的主题，其中的信息可能已经有所发展或是发生改变。

原文链接：挑战 GPT-4V ！马斯克发布 Grok-1.5V

OpenAI 刚刚发布了最强的 GPT4-Turbo 模型。

就在 4 月 12 号，马斯克就推出了 Grok-1.5V ，Grok-1.5V 模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

官方博文表示：「 Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

Grok-1.5V 测试结果

我们看到了 Grok-1.5V 与 GPT-4V 、Claude 3Sonnet 、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。

Grok 表示：「 Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

但是从我自己的使用体验来看，GPT4-Turbo 目前还是最好用的，尤其是在编码方面，其他的大模型还是和 GPT4-Turbo 有很大的差距。

按照 ChatGPT4 Turbo 升级教程，可以升级体验下最新版本 GPT4-Turbo 。

referer:https://x.ai/blog/grok-1.5v

目前，Grok-1.5V 将很快对我们的早期测试者和现有 Grok 用户开放，还没有开放源代码。

Grok-1.5V 实际表现

referer:https://x.ai/blog/grok-1.5v

虽然 Grok-1.5V 没有完全对用户开放，但是在博客中展示了 Grok-1.5V 的七个示例。

这所有的例子中，都是要求 Grok-1.5V 识别图像，然后回答问题

分别是：

根据图表编写代码
计算卡路里
根据图片讲故事
解释梗图
将表格转换为 CSV 文件格式
辨别木头的腐朽程度
解决 Leetcode 中等难度的问题

看下最后解决 LeetCode 中等难度题目的例子吧

提示词

Prompt：Can you write Python code that solves this?（你能编写 Python 代码来解决这个问题吗？）

Grok 回答

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

我看了下官方给出的示例，看起来 Grok 1.5V 的 OCR 功能确实还可以。

大家有兴趣，也可以去看看官网给出的例子。

希望 Grok-1.5V 给出的例子是真是的，不要到后面开放的时候被打脸了。(不过马斯克这个人真不太好说