V2EX  ›  英汉词典

Vanishing Gradient

释义 Definition

“Vanishing gradient(梯度消失)”指在训练深层神经网络时,反向传播过程中梯度在层与层之间逐渐变得非常小,导致前面(靠近输入端)的层几乎得不到有效更新,训练变慢甚至停滞。该现象常见于深层网络,尤其是使用饱和型激活函数(如 sigmoid、tanh)或不当初始化时。(相关但不同的问题还有“梯度爆炸”。)

发音 Pronunciation (IPA)

/ˈvænɪʃɪŋ ˈɡreɪdiənt/

例句 Examples

The model trains slowly because of the vanishing gradient problem.
由于梯度消失问题,这个模型训练得很慢。

In very deep recurrent networks, vanishing gradients can prevent the model from learning long-term dependencies unless techniques like gating or normalization are used.
在非常深的循环神经网络中,梯度消失会让模型难以学习长期依赖关系,除非使用门控机制或归一化等技术。

词源 Etymology

“Vanishing”源自动词 vanish(消失、逐渐不见),强调“越来越弱直至几乎没有”;“gradient”在机器学习语境中指损失函数对参数的“梯度”(用于指引更新方向与幅度)。合起来描述的就是:梯度在反向传播链条中逐层衰减,最终“消失”。

相关词 Related Words

文献与作品 Literary / Notable Works

  • Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen(早期系统讨论导致梯度消失/爆炸的训练困难)
  • Yoshua Bengio, Patrice Simard, Paolo Frasconi (1994), “Learning long-term dependencies with gradient descent is difficult”(经典论文,明确指出长程依赖与梯度消失问题)
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville (2016), Deep Learning(教材中对梯度消失有专门讲解与对策讨论)
  • Razvan Pascanu, Tomas Mikolov, Yoshua Bengio (2013), “On the difficulty of training recurrent neural networks”(讨论RNN训练中的梯度消失与爆炸及应对方法)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   867 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 17:52 · PVG 01:52 · LAX 09:52 · JFK 12:52
♥ Do have faith in what you're doing.