相对熵(Relative Entropy)是衡量两个概率分布差异的一种量,常指 Kullback–Leibler divergence(KL 散度):用来表示当用分布 (Q) 去近似真实分布 (P) 时,信息损失(或“额外编码代价”)的大小。它不对称,一般 **(D(P|Q) \neq D(Q|P))**,且不是真正意义上的距离。
/ˈrɛlətɪv ˈɛntrəpi/
Relative entropy is zero only when the two distributions are identical.
相对熵只有在两个分布完全相同的时候才为零。
In variational inference, minimizing relative entropy helps us find an approximate distribution that best matches the target posterior.
在变分推断中,最小化相对熵有助于找到与目标后验分布最匹配的近似分布。
“Relative”意为“相对的”,强调这是相对于另一个分布来度量;“entropy(熵)”来自信息论与统计物理中对“无序度/不确定性”的概念。相对熵由 Kullback 与 Leibler 在 20 世纪中期系统提出,用于刻画两个分布之间的“信息差”,因此也常被称为 KL 散度。