V2EX  ›  英汉词典
Enqueued related words: SGD, RMSprop

AdamW

释义 Definition

AdamW 是一种深度学习中常用的优化器(optimizer),可理解为 Adam 的改进版本:它将 权重衰减(weight decay,常用于正则化) 与 Adam 的梯度更新 “解耦” 处理,通常能带来更稳定、更好的泛化效果,尤其在 Transformer 等模型训练中很常见。(也常被写作 adamw。)

发音 Pronunciation (IPA)

/ˈædəm ˌdʌbəlˈjuː/

例句 Examples

I trained the model with AdamW for faster convergence.
我使用 AdamW 训练模型以更快收敛。

After tuning the learning rate and weight decay, AdamW produced better validation accuracy than Adam.
在调好学习率和权重衰减后,AdamW 的验证集准确率比 Adam 更好。

词源 Etymology

AdamW = Adam + W(Weight decay)。其中 Adam 是经典优化算法名(常解释为 Adaptive Moment Estimation,自适应矩估计),而 W权重衰减。AdamW 的核心思想是把权重衰减从 Adam 的自适应梯度更新里分离出来(“decoupled”),从而让正则化更符合其本意。

相关词 Related Words

文献与作品 Literary / Notable Works

  • Decoupled Weight Decay Regularization(Loshchilov & Hutter,2019)——提出 AdamW 的关键论文
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(Devlin et al.,2019)——训练细节中常见 AdamW/权重衰减设置
  • PyTorch Documentation(torch.optim.AdamW)——工业界常用实现与说明
  • Hugging Face Transformers Documentation——Transformer 训练范式中 AdamW 的常见用法与配置
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   814 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 23:20 · PVG 07:20 · LAX 15:20 · JFK 18:20
♥ Do have faith in what you're doing.