“Vanishing gradient(梯度消失)”指在训练深层神经网络时,反向传播过程中梯度在层与层之间逐渐变得非常小,导致前面(靠近输入端)的层几乎得不到有效更新,训练变慢甚至停滞。该现象常见于深层网络,尤其是使用饱和型激活函数(如 sigmoid、tanh)或不当初始化时。(相关但不同的问题还有“梯度爆炸”。)
/ˈvænɪʃɪŋ ˈɡreɪdiənt/
The model trains slowly because of the vanishing gradient problem.
由于梯度消失问题,这个模型训练得很慢。
In very deep recurrent networks, vanishing gradients can prevent the model from learning long-term dependencies unless techniques like gating or normalization are used.
在非常深的循环神经网络中,梯度消失会让模型难以学习长期依赖关系,除非使用门控机制或归一化等技术。
“Vanishing”源自动词 vanish(消失、逐渐不见),强调“越来越弱直至几乎没有”;“gradient”在机器学习语境中指损失函数对参数的“梯度”(用于指引更新方向与幅度)。合起来描述的就是:梯度在反向传播链条中逐层衰减,最终“消失”。