“Exploding gradient(梯度爆炸)”指在训练神经网络(尤其是深层网络或循环神经网络)时,反向传播得到的梯度在层与层(或时间步与时间步)之间迅速变得非常大,导致参数更新过猛、训练不稳定,甚至出现损失为 NaN/发散等问题。
/ɪkˈsploʊdɪŋ ˈɡreɪdiənt/
The model fails to train because of an exploding gradient.
这个模型因为梯度爆炸而无法正常训练。
During backpropagation through time, exploding gradients can cause the RNN’s weights to grow uncontrollably unless we use gradient clipping.
在时间反向传播(BPTT)过程中,若不使用梯度裁剪,梯度爆炸可能使 RNN 的权重失控地增大。
exploding 来自动词 explode(“爆炸、迅速膨胀”),gradient 在数学与优化中表示“梯度/斜率”,词根可追溯到拉丁语 gradus(“步、级”)。合起来用作机器学习术语,形象地描述“梯度值像爆炸一样迅速变大”的现象。