层归一化:一种神经网络中的归一化方法,对单个样本在某一层的特征维度上计算均值与方差,并进行标准化与可学习的缩放/平移。常用于稳定训练、加快收敛,尤其在循环神经网络与Transformer等结构中常见。(注:归一化方法还有 Batch Normalization 等,侧重点不同。)
/ˈleɪər ˌnɔːrmələˈzeɪʃən/
Layer normalization can make training more stable.
层归一化可以让训练更稳定。
Unlike batch normalization, layer normalization normalizes each example independently, which helps when batch sizes are small or sequence lengths vary.
与批归一化不同,层归一化对每个样本独立进行归一化,这在批量较小或序列长度变化时更有帮助。
由 layer(层) + normalization(归一化) 组合而成,字面意思是“对层进行归一化”。作为术语在深度学习语境中普及,源于学术界对训练稳定性与梯度传播问题的研究;该方法在 2016 年由研究者系统提出并命名为 Layer Normalization。