V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
245.03D
519.86D
V2EX  ›  Google

Gemma 4 可以通过洗车测试

  •  
  •   Livid ·
    PRO
    · 1 天前 · 8866 次点击


    而且思考时间很短。
    第 1 条附言  ·  1 天前
    本地运行的 31b 版本的回答:

    63 条回复    2026-04-04 12:13:34 +08:00
    tool2dx
        1
    tool2dx  
       1 天前 via Android
    预感今年的本地小模型要全面崛起了。
    Tink
        2
    Tink  
    PRO
       1 天前
    mlx 量化的好像也出来
    ethusdt
        3
    ethusdt  
       1 天前   ❤️ 3
    有没有可能这些测试题都被硬编码进去了,就像之前 9.11 比大小和草莓几个 r 这种问题,之前会被硬编码进模型。
    gpt5
        4
    gpt5  
       1 天前   ❤️ 6
    这个问题被传播太广了,估计已经进题库了。
    xiaoz
        5
    xiaoz  
       1 天前
    一个单一片面的问题不能说明什么吧,不用死磕一个问题,个人观点。
    OctopusGO
        6
    OctopusGO  
       1 天前
    嗯嗯
    dacapoday
        7
    dacapoday  
       1 天前
    @tool2dx 没那么容易,即使内存供应没问题,30B 以上,能产生 20 token/s 的本地机器也是大家伙,无法便携.
    gkiwi
        8
    gkiwi  
       1 天前
    qwen3.5-27b 也可以,如果可以再缩小 10 倍,估计未来很多都可以本地运行低级任务 + 远程的高级任务
    Livid
        9
    Livid  
    MOD
    OP
    PRO
       1 天前
    @gkiwi Qwen3.5 你遇到过那种他思考了几分钟然后直接超时的情况吗
    tomclancy
        10
    tomclancy  
       1 天前
    能解开道德限制吗?之前 gemma3 道德限制比 Gemini 都邪门
    FakerLeung
        11
    FakerLeung  
       1 天前
    这是题库了
    DonaldY
        12
    DonaldY  
       1 天前
    刚试了 qwen3.6-plus ,回答还是错的。

    At just 50 meters (about 164 feet), you should definitely walk. Here's why:

    ⏱️ Faster overall: Starting the car, backing out, driving 50m, finding a spot, and parking will almost certainly take longer than a 30–40 second walk. ⛽ Saves fuel & reduces wear: Short trips like this are highly inefficient for combustion engines. They don't reach optimal operating temperature, which increases fuel consumption, oil dilution, and long-term wear. (Even in an EV, it's unnecessary energy use.) 🌍 Zero emissions: Walking for 50 meters has no carbon footprint. 💡 Practical tip: Unless you're carrying heavy equipment, have mobility limitations, or it's actively pouring rain, walking is the smarter choice.

    Grab your supplies, enjoy the short stroll, and save your car the pointless start-stop cycle. Your wallet, engine, and the environment will thank you. 🚶‍♂️🚗💨
    diudiuu
        13
    diudiuu  
       1 天前
    @Livid 应该是推理产生很多 token ,max_tokens 设置太大了
    silypie
        14
    silypie  
       1 天前
    deepseek 之前不行,现在也可以了,感觉针对性训练过
    xing7673
        15
    xing7673  
       1 天前
    @Livid 本地部署超时是什么提示?没遇到过
    villivateur
        16
    villivateur  
       1 天前


    刚刚试了本地跑的 gemma4:e4b ,回答不正确
    eroneko
        17
    eroneko  
       1 天前
    本地部署的 qwen3.5 a35b 都可以,估计已经进题库了
    Livid
        18
    Livid  
    MOD
    OP
    PRO
       1 天前
    @villivateur 你试的是 4b 模型。如果试试 31b 模型呢?
    villivateur
        19
    villivateur  
       1 天前
    @Livid 搞不定,显存只有 12GB ,难受
    AlbertGuo
        20
    AlbertGuo  
       1 天前
    26b 不太行。而且有时能说出来有时不行。
    zololiu
        21
    zololiu  
       1 天前
    zololiu
        22
    zololiu  
       1 天前
    @zololiu 我试了一下 31B ,回答稳了。
    archxm
        23
    archxm  
       1 天前
    能不能打 dota ?
    AlbertGuo
        24
    AlbertGuo  
       1 天前
    31b 不开思考就不行了。

    ollama run gemma4:31b --think=false
    >>> I want to wash my car, the car wash is 50m away, should I walk or drive?
    You should **walk**.

    Here is why:

    1. **Efficiency:** By the time you start the engine, shift into gear, drive 50 meters, and find a place to
    park or queue, you could have already walked there.
    2. **Logic:** If you drive the car to the wash, you have to leave it there to pay or move it through the
    system. If you walk, you can check the line, pay first, or prepare your supplies without idling the engine.
    3. **Environmental impact:** Idling a car for a distance as short as 50 meters is inefficient for the
    engine and wastes fuel.

    **The only exception:** If you are towing a trailer or have a passenger with mobility issues, then
    obviously, drive. Otherwise, it's a 1-minute walk!
    hanswu
        25
    hanswu  
       1 天前
    GPT 开思考
    Walk.

    At 50 meters, walking is faster once you include getting in, starting the car, and parking again. It is also easier and a bit ridiculous in a good way to drive that distance.

    Only drive if:

    the weather is awful
    you need to move the car there for the wash itself
    the car is not currently at the wash location and must be brought over

    If the car is already with you and needs to end up at the wash, the real answer is: drive the car there, but you personally are not “choosing driving over walking” for convenience.
    florentino
        26
    florentino  
       1 天前
    @dacapoday 内存压缩啊,我看压缩效率很高: https://github.com/TheTom/turboquant_plus , 这个还是根据谷歌论文自己实现的,谷歌内部实现要是开源出来,估计效率应该更高
    SilentOrFight
        27
    SilentOrFight  
       1 天前
    @DonaldY #12 我在 opencode 上的 qwen3.6 plus 很快正确回答啊
    liuliuliuliu
        28
    liuliuliuliu  
    PRO
       1 天前
    @archxm
    ```
    Dota2 冠军 OG 如何被 AI 碾压? OpenAI 论文给答案
    2019-12-14 20:57
    在人工智能 OpenAI Five 面前,OG 不堪一击。五个人类组成的战队,此前全程毫无悬念地以 0:2 败下阵来,两局加在一起,OG 只推掉了两座外塔。
    ```

    关键字:2019 年, OpenAI, dota2 冠军
    zololiu
        29
    zololiu  
       1 天前
    DonaldY
        30
    DonaldY  
       1 天前
    @SilentOrFight 我在百炼上用的,深度思考模式。
    wzw
        31
    wzw  
       1 天前
    有没有可能, 是有类似数据进去了, 所以思考到了, 再问一个类似的问题?
    spacezip
        32
    spacezip  
       1 天前
    这问题豆包除夕当天连夜进库。。。。
    workbest
        33
    workbest  
       1 天前
    @Livid 非常多这种情况
    gkiwi
        34
    gkiwi  
       1 天前
    @Livid #9 遇到过。我是 4090 24G ,openclaw+qwen3.5-27b ,context 256K 太大了,一个 session 运行越久就越容易超时卡住。后来尝试了 context 32K 就很容易触发上下文 compact ,单个问答会更久,但不容易卡住超时。最好就是新建 session 缓解。再卡住就重启 openclaw gateway 了。。
    AoEiuV020JP
        35
    AoEiuV020JP  
       23 小时 58 分钟前
    快只能说明针对性训练过了, 有没有人开发个同类型的陷阱题验证一下, 当出题老师的应该擅长这些,
    coefu
        36
    coefu  
       23 小时 16 分钟前
    @dacapoday nvidia dgx spark ,只是有钱没钱的区别。
    zololiu
        37
    zololiu  
       23 小时 5 分钟前


    图片理解也挺强的,爆浆图也能看懂。
    liu731
        38
    liu731  
    PRO
       23 小时 3 分钟前
    48GB M4 Pro 运行不起来,扎心~
    fredweili
        39
    fredweili  
       23 小时 2 分钟前
    不能说明什么,也许还是过拟合
    archxm
        40
    archxm  
       22 小时 31 分钟前
    @liuliuliuliu ai 在 apm 上作弊了。限制了 apm ,也就是每分钟操作,但没限制住每秒的。那次比赛,好像有几秒,ai 操作达到 3 千的 瞬时 apm 。
    你看最近几年,这玩意就不热了,为啥,因为确实难。
    ai 作为游戏玩伴,肯定需要赋予一些人性的。不然,瞬时 apm 爆发,那优势太大了。
    silencelixing
        41
    silencelixing  
       22 小时 2 分钟前 via Android
    这是多少 G 的 mac 运行的啊,我的 m4 16g 根本跑不起来
    CS200185
        42
    CS200185  
       22 小时 0 分钟前
    @liu731 可以跑 FP8 量化的,model weight 只占用 30G 显存,性能衰减很小
    webcape233
        43
    webcape233  
       21 小时 57 分钟前 via iPhone
    千问 3.5 9b 8bit 量化都能正确回答这个问题
    liu731
        44
    liu731  
    PRO
       21 小时 51 分钟前
    @CS200185 试了一下,不行(如图)
    Hermitist
        45
    Hermitist  
       21 小时 48 分钟前
    @Livid 我用了 qwen3.5-35(跑在 macbook air M5 32G 内存机器上), 可以做到 35tokens/s, 降速也能做到 15-25tokens/s, 内存大概在 75-90%, 我感觉完全可以本地用上了.

    RocksLee
        46
    RocksLee  
       19 小时 53 分钟前
    本地运行。
    Qwen3.5 35B 通过
    Qwen3.5 27B 通过
    Qwen3.5 9B 不通过
    Gemma4 31B 通过
    Gemma4 26B 通过
    Gemma4 e4B 不通过
    ImINH
        47
    ImINH  
       19 小时 48 分钟前
    @ethusdt 大模型没有硬编码的逻辑,都是向量,原因应该是小模型本来就是蒸馏出来的,只要基础模型能解决这个问题,上下文不长的问题,就自然小模型可以解决。
    mogutouer
        48
    mogutouer  
       19 小时 17 分钟前
    这条问题太多人问了,所以新模型用新资料训练 100%能答出来
    Ethans
        49
    Ethans  
       19 小时 1 分钟前
    @zololiu #37 但这是娜美吧
    zzutmebwd
        50
    zzutmebwd  
       18 小时 23 分钟前 via Android
    我发现类似规模 moe 的表现差 dense 差很多,对 nv 这种显存小算力高的还是 dense 好,对于 mlx 或者 amd ai max 这种堆显存的还是 moe 。我是两张 4080s 32g ,准备跑 31b 原版看能不能塞下,不行就 fp8 ,作为家庭服务模型使用
    ccsexyz
        51
    ccsexyz  
       18 小时 21 分钟前   ❤️ 1
    测试了一个洗车问题的变体,Gemma 4 失败了,Gemini 3.1 Pro 没问题。
    Prompt: 我家汽车漆面划伤了,我要去离家 50 米的汽修店补漆,我应该步行还是骑自行车去?
    SeleiXi
        52
    SeleiXi  
       18 小时 2 分钟前
    @ImINH 这里硬编码的意思应该是说把 train set 当 test set 用,把这些问题直接过拟合了一次吧
    fovecifer
        53
    fovecifer  
       17 小时 58 分钟前
    @ccsexyz 我用 opus4.5 测了一下,失败
    换成 opus4.6 就成功了
    firemeteor
        54
    firemeteor  
       17 小时 26 分钟前 via Android
    这种小模型能写代码吗?
    projectjiaqi00
        55
    projectjiaqi00  
       17 小时 20 分钟前
    你们都是什么配置电脑能参考下都可以跑 31B 的?你们是刚买的还是?分享下配置参考下
    touzi
        56
    touzi  
    PRO
       16 小时 2 分钟前
    gemma4:e4b m1 的 32g 速度很快, 单从速度上看完全可以日常使用. 但是洗车问题没跑过去...
    JoshTheLegend
        57
    JoshTheLegend  
       14 小时 40 分钟前
    难说到底是想通了还是训狗训出来了
    0x42
        58
    0x42  
       7 小时 2 分钟前 via Android
    越发的羡慕你 ping google 的延时了
    YsHaNg
        59
    YsHaNg  
       6 小时 43 分钟前
    @Livid 最近 openclaw2026.3.31 之后总遇到 搞得我本地 qwen3.5 完全不可用 看了一下感觉是上下文设置问题 思考设置 high ctx32k 保留 20k 说一个 hi 都会触发 compaction 接着 LLM request timeout
    slackerman
        60
    slackerman  
       5 小时 23 分钟前 via Android
    怎么还有人纠结这个问题?所谓“洗车问题”,本质是语义冲突、信息不完备情况下的决策问题。整段题目的表达拆分开来是由四段语义组成。1. 我想去洗车
    2. 洗车店离我 50 米
    3. 可选择走路去还是开车去
    4. 我应该怎么去?日常情景下,这个问题是:我想去洗车,应该怎么去?

    第一段其实不用管。第四段我该怎么去?去洗车肯定得开车去吧。这时候再插入第二段:洗车店离我 50 米,其实对这个题目也没有什么影响。因为洗车店无论离我多远,我都得开车去,对吧?最后再插入第三段形成完整的题目:是走路去还是开车去?

    这时候就出现了一个语义冲突了。提问题的人提供了一个选择,一个隐含假设:你是可以走路去,也可以开车去。

    提问人提出了一组冲突的信息,那回答的人怎么办呢?

    两个选择:要么猜,要么要求提问人澄清。
    我们先说人怎么办:

    1. 凭直觉回答完全忽略隐含的冲突信息
    2. 敏锐地捕捉到了冲突信息,去猜到底是哪句话说错了造成的冲突
    3. 向提问者要求澄清 LLM 怎么做呢?

    在这样的一种陈述句下,LLM 通常倾向于自行去补全上下语境。所以,LLM 其实大概率是走到了 2 的路径。

    至于它是怎么猜的,我们不能保证,也是一个概率问题。比如说:
    1. 它猜你是不是“50 米”打错了,其实是一个“50 公里”
    2. 或者是猜你要洗的车已经在洗车店了
    很多人觉得 LLM 回答的答案和自己的预期不一样,是因为人聪明、LLM 弱智,其实根本不是这样。热衷于用这个问题去评判 LLM 的智能程度,反而是因为本身对语言不够敏感,且对 LLM 的运行机制不够了解。
    slackerman
        61
    slackerman  
       5 小时 22 分钟前 via Android
    就像通过问模型“你是谁”,来判断模型是否套壳注水一样
    lovedeepl
        62
    lovedeepl  
       2 小时 21 分钟前
    @Hermitist qwen 还可以联网搜索的?
    Hermitist
        63
    Hermitist  
       2 小时 2 分钟前
    @lovedeepl 对的, 你可以先输入联网搜索, 它会主动去网络找.
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2603 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 06:16 · PVG 14:16 · LAX 23:16 · JFK 02:16
    ♥ Do have faith in what you're doing.