Gemma 4 可以通过洗车测试

gemma

洗车

思考

63 条回复 • 2026-04-04 12:13:34 +08:00

1

tool2dx

1 天前 via Android

预感今年的本地小模型要全面崛起了。

2

Tink

PRO

1 天前

mlx 量化的好像也出来

3

ethusdt

1 天前

3

有没有可能这些测试题都被硬编码进去了，就像之前 9.11 比大小和草莓几个 r 这种问题，之前会被硬编码进模型。

4

gpt5

1 天前

6

这个问题被传播太广了，估计已经进题库了。

5

xiaoz

1 天前

一个单一片面的问题不能说明什么吧，不用死磕一个问题，个人观点。

6

OctopusGO

1 天前

嗯嗯

7

dacapoday

1 天前

@tool2dx 没那么容易,即使内存供应没问题,30B 以上,能产生 20 token/s 的本地机器也是大家伙,无法便携.

8

gkiwi

1 天前

qwen3.5-27b 也可以，如果可以再缩小 10 倍，估计未来很多都可以本地运行低级任务 + 远程的高级任务

9

Livid

MOD

OP

PRO

1 天前

@gkiwi Qwen3.5 你遇到过那种他思考了几分钟然后直接超时的情况吗

10

tomclancy

1 天前

能解开道德限制吗？之前 gemma3 道德限制比 Gemini 都邪门

11

FakerLeung

1 天前

这是题库了

12

DonaldY

1 天前

刚试了 qwen3.6-plus ，回答还是错的。

At just 50 meters (about 164 feet), you should definitely walk. Here's why:

⏱️ Faster overall: Starting the car, backing out, driving 50m, finding a spot, and parking will almost certainly take longer than a 30–40 second walk. ⛽ Saves fuel & reduces wear: Short trips like this are highly inefficient for combustion engines. They don't reach optimal operating temperature, which increases fuel consumption, oil dilution, and long-term wear. (Even in an EV, it's unnecessary energy use.) 🌍 Zero emissions: Walking for 50 meters has no carbon footprint. 💡 Practical tip: Unless you're carrying heavy equipment, have mobility limitations, or it's actively pouring rain, walking is the smarter choice.

Grab your supplies, enjoy the short stroll, and save your car the pointless start-stop cycle. Your wallet, engine, and the environment will thank you. 🚶‍♂️🚗💨

13

diudiuu

1 天前

@Livid 应该是推理产生很多 token ，max_tokens 设置太大了

14

silypie

1 天前

deepseek 之前不行，现在也可以了，感觉针对性训练过

15

xing7673

1 天前

@Livid 本地部署超时是什么提示？没遇到过

16

villivateur

1 天前

刚刚试了本地跑的 gemma4:e4b ，回答不正确

17

eroneko

1 天前

本地部署的 qwen3.5 a35b 都可以，估计已经进题库了

18

Livid

MOD

OP

PRO

1 天前

@villivateur 你试的是 4b 模型。如果试试 31b 模型呢？

19

villivateur

1 天前

@Livid 搞不定，显存只有 12GB ，难受

20

AlbertGuo

1 天前

26b 不太行。而且有时能说出来有时不行。

21

zololiu

1 天前

22

zololiu

1 天前

@zololiu 我试了一下 31B ，回答稳了。

23

archxm

1 天前

能不能打 dota ？

24

AlbertGuo

1 天前

31b 不开思考就不行了。

ollama run gemma4:31b --think=false
>>> I want to wash my car, the car wash is 50m away, should I walk or drive?
You should **walk**.

Here is why:

1. **Efficiency:** By the time you start the engine, shift into gear, drive 50 meters, and find a place to
park or queue, you could have already walked there.
2. **Logic:** If you drive the car to the wash, you have to leave it there to pay or move it through the
system. If you walk, you can check the line, pay first, or prepare your supplies without idling the engine.
3. **Environmental impact:** Idling a car for a distance as short as 50 meters is inefficient for the
engine and wastes fuel.

**The only exception:** If you are towing a trailer or have a passenger with mobility issues, then
obviously, drive. Otherwise, it's a 1-minute walk!

25

hanswu

1 天前

GPT 开思考
Walk.

At 50 meters, walking is faster once you include getting in, starting the car, and parking again. It is also easier and a bit ridiculous in a good way to drive that distance.

Only drive if:

the weather is awful
you need to move the car there for the wash itself
the car is not currently at the wash location and must be brought over

If the car is already with you and needs to end up at the wash, the real answer is: drive the car there, but you personally are not “choosing driving over walking” for convenience.

26

florentino

1 天前

@dacapoday 内存压缩啊,我看压缩效率很高: https://github.com/TheTom/turboquant_plus , 这个还是根据谷歌论文自己实现的,谷歌内部实现要是开源出来,估计效率应该更高

27

SilentOrFight

1 天前

@DonaldY #12 我在 opencode 上的 qwen3.6 plus 很快正确回答啊

28

liuliuliuliu

PRO

1 天前

@archxm
```
Dota2 冠军 OG 如何被 AI 碾压？ OpenAI 论文给答案
2019-12-14 20:57
在人工智能 OpenAI Five 面前，OG 不堪一击。五个人类组成的战队，此前全程毫无悬念地以 0:2 败下阵来，两局加在一起，OG 只推掉了两座外塔。
```

关键字：2019 年, OpenAI, dota2 冠军

29

zololiu

1 天前

30

DonaldY

1 天前

@SilentOrFight 我在百炼上用的，深度思考模式。

31

wzw

1 天前

有没有可能, 是有类似数据进去了, 所以思考到了, 再问一个类似的问题?

32

spacezip

1 天前

这问题豆包除夕当天连夜进库。。。。

33

workbest

1 天前

@Livid 非常多这种情况

34

gkiwi

1 天前

@Livid #9 遇到过。我是 4090 24G ，openclaw+qwen3.5-27b ，context 256K 太大了，一个 session 运行越久就越容易超时卡住。后来尝试了 context 32K 就很容易触发上下文 compact ，单个问答会更久，但不容易卡住超时。最好就是新建 session 缓解。再卡住就重启 openclaw gateway 了。。

35

AoEiuV020JP

23 小时 58 分钟前

快只能说明针对性训练过了，有没有人开发个同类型的陷阱题验证一下，当出题老师的应该擅长这些，

36

coefu

23 小时 16 分钟前

@dacapoday nvidia dgx spark ，只是有钱没钱的区别。

37

zololiu

23 小时 5 分钟前

图片理解也挺强的，爆浆图也能看懂。

38

liu731

PRO

23 小时 3 分钟前

48GB M4 Pro 运行不起来，扎心～

39

fredweili

23 小时 2 分钟前

不能说明什么，也许还是过拟合

40

archxm

22 小时 31 分钟前

@liuliuliuliu ai 在 apm 上作弊了。限制了 apm ，也就是每分钟操作，但没限制住每秒的。那次比赛，好像有几秒，ai 操作达到 3 千的瞬时 apm 。
你看最近几年，这玩意就不热了，为啥，因为确实难。
ai 作为游戏玩伴，肯定需要赋予一些人性的。不然，瞬时 apm 爆发，那优势太大了。

41

silencelixing

22 小时 2 分钟前 via Android

这是多少 G 的 mac 运行的啊，我的 m4 16g 根本跑不起来

42

CS200185

22 小时 0 分钟前

@liu731 可以跑 FP8 量化的，model weight 只占用 30G 显存，性能衰减很小

43

webcape233

21 小时 57 分钟前 via iPhone

千问 3.5 9b 8bit 量化都能正确回答这个问题

44

liu731

PRO

21 小时 51 分钟前

@CS200185 试了一下，不行（如图）

45

Hermitist

21 小时 48 分钟前

@Livid 我用了 qwen3.5-35(跑在 macbook air M5 32G 内存机器上), 可以做到 35tokens/s, 降速也能做到 15-25tokens/s, 内存大概在 75-90%, 我感觉完全可以本地用上了.

46

RocksLee

19 小时 53 分钟前

本地运行。
Qwen3.5 35B 通过
Qwen3.5 27B 通过
Qwen3.5 9B 不通过
Gemma4 31B 通过
Gemma4 26B 通过
Gemma4 e4B 不通过

47

ImINH

19 小时 48 分钟前

@ethusdt 大模型没有硬编码的逻辑，都是向量，原因应该是小模型本来就是蒸馏出来的，只要基础模型能解决这个问题，上下文不长的问题，就自然小模型可以解决。

48

mogutouer

19 小时 17 分钟前

这条问题太多人问了，所以新模型用新资料训练 100%能答出来

49

Ethans

19 小时 1 分钟前

@zololiu #37 但这是娜美吧

50

zzutmebwd

18 小时 23 分钟前 via Android

我发现类似规模 moe 的表现差 dense 差很多，对 nv 这种显存小算力高的还是 dense 好，对于 mlx 或者 amd ai max 这种堆显存的还是 moe 。我是两张 4080s 32g ，准备跑 31b 原版看能不能塞下，不行就 fp8 ，作为家庭服务模型使用

51

ccsexyz

18 小时 21 分钟前

1

测试了一个洗车问题的变体，Gemma 4 失败了，Gemini 3.1 Pro 没问题。
Prompt: 我家汽车漆面划伤了，我要去离家 50 米的汽修店补漆，我应该步行还是骑自行车去？

52

SeleiXi

18 小时 2 分钟前

@ImINH 这里硬编码的意思应该是说把 train set 当 test set 用，把这些问题直接过拟合了一次吧

53

fovecifer

17 小时 58 分钟前

@ccsexyz 我用 opus4.5 测了一下，失败
换成 opus4.6 就成功了

54

firemeteor

17 小时 26 分钟前 via Android

这种小模型能写代码吗？

55

projectjiaqi00

17 小时 20 分钟前

你们都是什么配置电脑能参考下都可以跑 31B 的？你们是刚买的还是？分享下配置参考下

56

touzi

PRO

16 小时 2 分钟前

gemma4:e4b m1 的 32g 速度很快, 单从速度上看完全可以日常使用. 但是洗车问题没跑过去...

57

JoshTheLegend

14 小时 40 分钟前

难说到底是想通了还是训狗训出来了

58

0x42

7 小时 2 分钟前 via Android

越发的羡慕你 ping google 的延时了

59

YsHaNg

6 小时 43 分钟前

@Livid 最近 openclaw2026.3.31 之后总遇到搞得我本地 qwen3.5 完全不可用看了一下感觉是上下文设置问题思考设置 high ctx32k 保留 20k 说一个 hi 都会触发 compaction 接着 LLM request timeout

60

slackerman

5 小时 23 分钟前 via Android

怎么还有人纠结这个问题？所谓“洗车问题”，本质是语义冲突、信息不完备情况下的决策问题。整段题目的表达拆分开来是由四段语义组成。1. 我想去洗车
2. 洗车店离我 50 米
3. 可选择走路去还是开车去
4. 我应该怎么去？日常情景下，这个问题是：我想去洗车，应该怎么去？

第一段其实不用管。第四段我该怎么去？去洗车肯定得开车去吧。这时候再插入第二段：洗车店离我 50 米，其实对这个题目也没有什么影响。因为洗车店无论离我多远，我都得开车去，对吧？最后再插入第三段形成完整的题目：是走路去还是开车去？

这时候就出现了一个语义冲突了。提问题的人提供了一个选择，一个隐含假设：你是可以走路去，也可以开车去。

提问人提出了一组冲突的信息，那回答的人怎么办呢？

两个选择：要么猜，要么要求提问人澄清。
我们先说人怎么办：

1. 凭直觉回答完全忽略隐含的冲突信息
2. 敏锐地捕捉到了冲突信息，去猜到底是哪句话说错了造成的冲突
3. 向提问者要求澄清 LLM 怎么做呢？

在这样的一种陈述句下，LLM 通常倾向于自行去补全上下语境。所以，LLM 其实大概率是走到了 2 的路径。

至于它是怎么猜的，我们不能保证，也是一个概率问题。比如说：
1. 它猜你是不是“50 米”打错了，其实是一个“50 公里”
2. 或者是猜你要洗的车已经在洗车店了
很多人觉得 LLM 回答的答案和自己的预期不一样，是因为人聪明、LLM 弱智，其实根本不是这样。热衷于用这个问题去评判 LLM 的智能程度，反而是因为本身对语言不够敏感，且对 LLM 的运行机制不够了解。

61

slackerman

5 小时 22 分钟前 via Android

就像通过问模型“你是谁”，来判断模型是否套壳注水一样

62

lovedeepl

2 小时 21 分钟前

@Hermitist qwen 还可以联网搜索的？

63

Hermitist

2 小时 2 分钟前

@lovedeepl 对的, 你可以先输入联网搜索, 它会主动去网络找.