最大似然估计

计算一批数据符合一个分布的指标 ——- 似然度

  • 全概率
P(Bi|A)=P(Bii)P(A|Bi)P(A)=P(Bi)i=1nP(A|Bi),P(A)=i=1nP(Bi)P(A|Bi)

全概率公式:设事件 B1,B2,Bn 构成一个完备事件组,即它们两两不相容,和为全集且 P(Bi)>0 ,则对任一事件 A有上面的公式

  • 先验概率和后验概率
    • 先验概率(prior probability):指根据以往经验和分析。在实验或采样前就可以得到的概率。
    • 后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。

Entory(信息熵)

对于一个事件:

  • 熵值越大,发生的概率越小
  • 熵值越小,发生的概率越大

计算公式:

I(x)=log21p(x)=log2p(x)
  • 对于一个正常的硬币:t表示正面向上,h表示反面向上则:

    p(t)=0.5p(h)=0.5

    I(t)=I(h)=log20.5=1

  • 对于一个不正常的硬币:

    q(t)=0.8 I(t)=log20.8=0.32

    q(h)=0.2 I(h)=log20.2=2.32

Shannon Entory (香农熵)

香农熵的对象是一个概率分布而不是一个事件,公式如下(离散的概率分布)

H(p)=piIip=pilog2(1pi)=pilog2(pi)
  • 对于连续的事件概率的公式形式就是把求和符号改成积分符号

  • 举例如下

    • 对于一个正常的硬币:t表示正面向上,h表示反面向上则:p(t)=0.5p(h)=0.5H(p)=p(t)×log21p(t)+p(h)×log21p(h)=0.5×1+0.5×1=1
  • 对于一个不正常的硬币:q(t)=0.8,q(h)=0.2H(q)=q(h)×log2(1/q(h))+q(t)×log2(1/q(t))=0.2×2.32+0.8×0.32=0.72

可以看出,对于一个概率分布来说:

  • 这个概率分布越平均,香农熵越大
  • 这个概率分布越集中(其中某个事件的概率接近于1),香农熵越小

Cross Entory (交叉熵)

交叉熵用来判断两个分布的相似度,即我们使用q来估计p的获取的信息熵

公式如下:

H(p,q)=piIiq=pilog2(1qi)=pilog2(qi)

我们已经知道了一个真实的硬币分布,即 p(t)=0.5p(h)=0.5 (ground truth)

对于下面的两个分布

  • q(t)=0.8q(h)=0.2

    H(p,q)=p(h)×log2(1/q(h))+p(t)×log2(1/q(t))=0.5×2.32+0.5×0.32=1.32
  • q(t)=0.6q(h)=0.4

    H(p,q)=p(h)×log2(1/q(h))+p(t)×log2(1/q(t))=0.5×1.32+0.5×0.74=1.03

从上面的例子可以看出,q 越接近 p 交叉熵越小;

Kullback-Leibler Divergence(KL散度)

KL散度可以量化计算两个分布之间的区别的一个指标,其定义如下

D(p||q)=H(p,q)H(p)=piIiqpiIip=pilog2(1qi)pilog2(1pi)=pilog2(piqi)

下面是KL散度的性质:

  • D(p||q)0

  • D(p||q)D(q||p),故KL散度并不代表两个分布的距离

  • 求解最小化KL散度等效于求解交叉熵的最小化

    θD(p||qθ)=θH(p,qθ)θH(p)=θH(p,qθ)

    因为一般来说,q代表我们需要求的分布,而p代表现实正确的分布与参数θ无关,故后面的一项为0