V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
winglight2016
V2EX  ›  分享发现

Meta 发布了 llama3.2,我试了一下 ollama 版本,发现这是假的

  •  
  •   winglight2016 · 58 天前 · 1478 次点击
    这是一个创建于 58 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://imgur.com/a/MuyiVFa

    怎么想 meta 都不至于出现这种低级问题,大概只可能是 ollama 的问题了

    第 1 条附言  ·  58 天前
    imgur 的图经常访问不了,大家有兴趣可以尝试比较本地 ollama 和 groq 上相同版本的 llama3.1/3.2 的回复,另外,英文的确是基本准确的
    第 2 条附言  ·  58 天前
    再补充一下:刚才的本地运行是 Mac 环境,换到 Windows 后,无论中英文都可以正常回答——难道 mac 版本有啥不一样?
    14 条回复
    jifengg
        1
    jifengg  
       58 天前
    图片看不了。
    怎么发现是假的?
    paopjian
        2
    paopjian  
       58 天前
    不是,靠问问题问他版本???
    winglight2016
        3
    winglight2016  
    OP
       58 天前
    @jifengg imgur 免费版太容易超请求数了

    其实就问了两个问题:1. 你是谁; 2. 你的版本是什么

    中文提问,3.1 和 3.2 的回答都是 chatgpt/openai

    英文提问,基本答对了,但是版本是 llama2.0
    winglight2016
        4
    winglight2016  
    OP
       58 天前
    @paopjian 对于 chat ai ,你还有其他方式吗?
    kaichen
        5
    kaichen  
       58 天前
    你问大部分的模型,都会说自己是 chatgpt ,因为大部分厂商都拿 chatgpt 来合成训练数据,用来训练自己的模型。

    这不是判断模型真假的标准。
    jifengg
        6
    jifengg  
       58 天前
    https://ollama.com/library/qwen2.5/blobs/66b9ea09bd5b

    像 qwen ,会内置一个 system 文件告诉他自己是谁。
    llama 系列的都没有这个内置 prompts ,问是谁都会随机回答。我的 llama 还说它是 bing 呢
    bluehr
        7
    bluehr  
       58 天前
    问它是问不出来正确版本的,不信你可以试一试其他方式部署的
    yianing
        8
    yianing  
       58 天前
    ollama 上面的是 3B 版本的吧,性能很弱的
    winglight2016
        9
    winglight2016  
    OP
       58 天前
    @kaichen
    @jifengg
    @bluehr
    @yianing
    并不是呀,我在 groq 上的 llama3.1/3.2 ,3B/11B/70B 都试了同样问题,全部回答正确,只有一个版本有点答非所问,但是追问后是正确的。
    laooong
        10
    laooong  
       58 天前
    5 楼回答已经可以解释你的问题了。
    “这不是判断模型真假的标准。”
    不用纠结的。
    Qwen2.5 也被人测出来会说自己是 chatgpt 、sonnet 乃至其他的,gemini 此前也被人测出来说自己是文心一言。
    winglight2016
        11
    winglight2016  
    OP
       58 天前
    再补充一下:刚才的本地运行是 Mac 环境,换到 Windows 后,无论中英文都可以正常回答——难道 mac 版本有啥不一样?
    myxingkong
        12
    myxingkong  
       58 天前
    Ollama 的默认模型基本都是量化过后的,而 Groq 模型是未量化的。另外,temperature 也会影响模型的回答。

    ```shell
    $ ollama run llama3.2
    >>> /set parameter temperature 0.0
    ```
    winglight2016
        13
    winglight2016  
    OP
       58 天前
    @myxingkong 的确,环境/设置因素都可能影响回答,不过我测试时都是用了默认设置,方便对比。
    yuting0501
        14
    yuting0501  
       56 天前 via iPhone
    llama 的中文实在太差了,训练数据来源可能非常有限。可以试试用英文再问一次。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2709 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 10:22 · PVG 18:22 · LAX 02:22 · JFK 05:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.