KLDistance
最大似然估计
计算一批数据符合一个分布的指标 ——- 似然度
- 全概率
全概率公式:设事件 $B_1,B_2,…B_n $ 构成一个完备事件组,即它们两两不相容,和为全集且 $P(B_i)>0$ ,则对任一事件 $A$有上面的公式
- 先验概率和后验概率
- 先验概率(prior probability):指根据以往经验和分析。在实验或采样前就可以得到的概率。
- 后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。
Entory(信息熵)
对于一个事件:
- 熵值越大,发生的概率越小
- 熵值越小,发生的概率越大
计算公式:
对于一个正常的硬币:t表示正面向上,h表示反面向上则:
$p(t)=0.5$ ,$p(h)=0.5$
$I(t)=I(h)=-\log_2 {0.5} = 1$
对于一个不正常的硬币:
$q(t)=0.8$ $I(t) = -\log_2{0.8} =0.32$
$q(h)=0.2$ $I(h) = -\log_2{0.2}=2.32$
Shannon Entory (香农熵)
香农熵的对象是一个概率分布而不是一个事件,公式如下(离散的概率分布)
对于连续的事件概率的公式形式就是把求和符号改成积分符号
举例如下
- 对于一个正常的硬币:t表示正面向上,h表示反面向上则:
- 对于一个不正常的硬币:
可以看出,对于一个概率分布来说:
- 这个概率分布越平均,香农熵越大
- 这个概率分布越集中(其中某个事件的概率接近于1),香农熵越小
Cross Entory (交叉熵)
交叉熵用来判断两个分布的相似度,即我们使用$q$来估计$p$的获取的信息熵
公式如下:
我们已经知道了一个真实的硬币分布,即 $p(t) = 0.5$,$p(h)=0.5$ (ground truth)
对于下面的两个分布
$q(t) = 0.8$,$q(h)=0.2$
$q(t) = 0.6$,$q(h)=0.4$
从上面的例子可以看出,$q$ 越接近 $p$ 交叉熵越小;
Kullback-Leibler Divergence(KL散度)
KL散度可以量化计算两个分布之间的区别的一个指标,其定义如下
下面是KL散度的性质:
$D ( p || q ) \geq 0$
$D ( p || q ) \neq D ( q || p )$,故KL散度并不代表两个分布的距离
求解最小化KL散度等效于求解交叉熵的最小化
因为一般来说,$q$代表我们需要求的分布,而$p$代表现实正确的分布与参数$\theta$无关,故后面的一项为0
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Mirclea's blog!