批量梯度下降:一种优化算法。每次参数更新时,使用整个训练集(全量数据)计算损失函数对参数的梯度,然后沿着使损失下降的方向更新参数。常用于机器学习/深度学习中的模型训练。也常与 SGD(随机梯度下降)、mini-batch(小批量)梯度下降对比。
/ bætʃ ˈɡreɪdiənt dɪˈsent /
The model was trained using batch gradient descent.
该模型使用批量梯度下降进行训练。
Because batch gradient descent computes gradients over the entire dataset, it can be stable but slow on very large datasets.
由于批量梯度下降在整个数据集上计算梯度,它往往更稳定,但在超大数据集上可能很慢。
batch 原意是“一批、一组”,来自中古英语 bacche(与“成批、成组”相关的用法发展而来);在计算与数据处理中引申为“批处理/一批数据”。
gradient 在数学中指“梯度”(函数变化最快的方向与变化率),源自拉丁语 gradiens(“行走、步进”之意的词根演变)。
descent 意为“下降”,源自拉丁语 descendere(de- “向下” + scandere “攀爬”),在优化里比喻“沿着下降方向走到更低的损失”。合起来就是“用一整批数据的梯度来做下降更新”。