KL散度(KL divergence)



  • KL散度(KL divergence)

    KL散度:也称相对熵,信息散度

    KL散度是两个概率分布P和Q差别的非对称性的度量。P表示数据的真实分布,Q表示模型分布(理论分布),是P的近似分布。

    对于离散随机变量:

    DKL(PQ)=iP(i)lnP(i)Q(i)D_{KL}(P||Q) = \sum_{i} P(i)\ln{\frac{P(i)}{Q(i)}}

    DKL(PQ)DKL(QP)D_{KL}(P||Q) \neq D_{KL}(Q||P)

    DKL(PQ)0D_{KL}(P||Q) \geqslant 0

    KL散度不具有对称性

    自信息(self information)

    自信息是与概率空间中单一事件或离散随机变量的值相关的信息量的量度

    自信息只与事件发生的几率相关,事件发生几率越低, 事件发生时,接收到的信息中,自信息越大。

    自信息:I(wn)=log(wn)I(w_{n}) =- \log (w_{n})

    一个事件包含的信息量等于它包含的独立事件的信息量之和,平均的自信息值记为信息熵。

    自信息与KL散度:

    I(m)=DKL(δimpi)I(m) = D_{KL}(\delta_{im}||{p_{i}})

    互信息(Mutual Information)

    互信息:描述变量之间的相互依赖性的量度。

    两个离散随机变量XX YY 互信息定义为:

    I(X,Y)=yYxXp(x,y)log(p(x,y)p(x)p(y))I(X, Y) = \sum_{y \in Y }\sum_{x \in X}p(x, y)\log(\frac{p(x, y)}{p(x)p(y)})

    I(X,Y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(X,Y)=H(X,Y)H(XY)H(YX) I(X, Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y) = H(X, Y) - H(X|Y) - H(Y|X)

    img

    互信息与KL散度:

    I(X,Y)=DKL(p(x,y)p(x)p(y))=EYDKL(p(xy)p(x))I(X,Y) = D_{KL}(p(x, y)||p(x)p(y)) = \mathbb E_{Y}{D_{KL}(p(x|y)||p(x))}

    交叉熵 (cross entropy)

    交叉熵与KL散度:
    H(p,q)=Ep[logq]=H(p)+DKL(pq)H(p, q) = E_{p}[-\log q] = H(p) + D_{KL}(p||q)

    条件熵 (conditional entropy)

    H(YX)=xX,yYp(x,y)logp(x,y)p(x)H(Y|X) = -\sum_{x \in X, y \in Y}p(x, y)\log\frac{p(x, y)}{p(x)}

    对称性

    条件熵与KL散度:

    H(XY)=logNDKL(P(X,Y)P(X)P(Y))DKL(P(X)PU(X))=logNEYDKL(P(XY)PU(X))H(X|Y) = \log N - D_{KL}(P(X, Y)||P(X)P(Y)) - D_{KL}(P(X)||P_{U}(X)) = \log N - \mathbb E_{Y}{D_{KL}(P(X|Y)||P_{U}(X))}


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待