AdamW 是一种深度学习中常用的优化器(optimizer),可理解为 Adam 的改进版本:它将 权重衰减(weight decay,常用于正则化) 与 Adam 的梯度更新 “解耦” 处理,通常能带来更稳定、更好的泛化效果,尤其在 Transformer 等模型训练中很常见。(也常被写作 adamw。)
/ˈædəm ˌdʌbəlˈjuː/
I trained the model with AdamW for faster convergence.
我使用 AdamW 训练模型以更快收敛。
After tuning the learning rate and weight decay, AdamW produced better validation accuracy than Adam.
在调好学习率和权重衰减后,AdamW 的验证集准确率比 Adam 更好。
AdamW = Adam + W(Weight decay)。其中 Adam 是经典优化算法名(常解释为 Adaptive Moment Estimation,自适应矩估计),而 W 指 权重衰减。AdamW 的核心思想是把权重衰减从 Adam 的自适应梯度更新里分离出来(“decoupled”),从而让正则化更符合其本意。