最大似然估计

计算一批数据符合一个分布的指标 ——- 似然度

  • 全概率

全概率公式:设事件 $B_1,B_2,…B_n $ 构成一个完备事件组,即它们两两不相容,和为全集且 $P(B_i)>0$ ,则对任一事件 $A$有上面的公式

  • 先验概率和后验概率
    • 先验概率(prior probability):指根据以往经验和分析。在实验或采样前就可以得到的概率。
    • 后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。

Entory(信息熵)

对于一个事件:

  • 熵值越大,发生的概率越小
  • 熵值越小,发生的概率越大

计算公式:

  • 对于一个正常的硬币:t表示正面向上,h表示反面向上则:

    $p(t)=0.5$ ,$p(h)=0.5$

    $I(t)=I(h)=-\log_2 {0.5} = 1$

  • 对于一个不正常的硬币:

    $q(t)=0.8$ $I(t) = -\log_2{0.8} =0.32$

    $q(h)=0.2$ $I(h) = -\log_2{0.2}=2.32$

Shannon Entory (香农熵)

香农熵的对象是一个概率分布而不是一个事件,公式如下(离散的概率分布)

  • 对于连续的事件概率的公式形式就是把求和符号改成积分符号

  • 举例如下

    • 对于一个正常的硬币:t表示正面向上,h表示反面向上则:
  • 对于一个不正常的硬币:

可以看出,对于一个概率分布来说:

  • 这个概率分布越平均,香农熵越大
  • 这个概率分布越集中(其中某个事件的概率接近于1),香农熵越小

Cross Entory (交叉熵)

交叉熵用来判断两个分布的相似度,即我们使用$q$来估计$p$的获取的信息熵

公式如下:

我们已经知道了一个真实的硬币分布,即 $p(t) = 0.5$,$p(h)=0.5$ (ground truth)

对于下面的两个分布

  • $q(t) = 0.8$,$q(h)=0.2$

  • $q(t) = 0.6$,$q(h)=0.4$

从上面的例子可以看出,$q$ 越接近 $p$ 交叉熵越小;

Kullback-Leibler Divergence(KL散度)

KL散度可以量化计算两个分布之间的区别的一个指标,其定义如下

下面是KL散度的性质:

  • $D ( p || q ) \geq 0$

  • $D ( p || q ) \neq D ( q || p )$,故KL散度并不代表两个分布的距离

  • 求解最小化KL散度等效于求解交叉熵的最小化

    因为一般来说,$q$代表我们需要求的分布,而$p$代表现实正确的分布与参数$\theta$无关,故后面的一项为0