KL散度（KL divergence）

zkhust

KL散度：也称相对熵，信息散度

KL散度是两个概率分布P和Q差别的非对称性的度量。P表示数据的真实分布，Q表示模型分布（理论分布），是P的近似分布。

对于离散随机变量：

$D_{KL}(P||Q) = \sum_{i} P(i)\ln{\frac{P(i)}{Q(i)}}$

$D_{KL}(P||Q) \neq D_{KL}(Q||P)$

$D_{KL}(P||Q) \geqslant 0$

KL散度不具有对称性

自信息是与概率空间中单一事件或离散随机变量的值相关的信息量的量度

自信息只与事件发生的几率相关，事件发生几率越低，事件发生时，接收到的信息中，自信息越大。

自信息： $I(w_{n}) =- \log (w_{n})$

一个事件包含的信息量等于它包含的独立事件的信息量之和，平均的自信息值记为信息熵。

自信息与KL散度：

$I(m) = D_{KL}(\delta_{im}||{p_{i}})$

互信息：描述变量之间的相互依赖性的量度。

两个离散随机变量 $X$ $Y$ 互信息定义为：

$I(X, Y) = \sum_{y \in Y }\sum_{x \in X}p(x, y)\log(\frac{p(x, y)}{p(x)p(y)})$

$I(X, Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y) = H(X, Y) - H(X|Y) - H(Y|X)$

互信息与KL散度：

$I(X,Y) = D_{KL}(p(x, y)||p(x)p(y)) = \mathbb E_{Y}{D_{KL}(p(x|y)||p(x))}$

交叉熵与KL散度：
$H(p, q) = E_{p}[-\log q] = H(p) + D_{KL}(p||q)$

$H(Y|X) = -\sum_{x \in X, y \in Y}p(x, y)\log\frac{p(x, y)}{p(x)}$

对称性

条件熵与KL散度：

$H(X|Y) = \log N - D_{KL}(P(X, Y)||P(X)P(Y)) - D_{KL}(P(X)||P_{U}(X)) = \log N - \mathbb E_{Y}{D_{KL}(P(X|Y)||P_{U}(X))}$