tags: 基础数学知识
[TOC]
-
基本思想: 一件不太可能的事情发生, 要比一件非常可能的事情发生提供更多的信息
-
性质:
- 非常可能发生的事情信息量较少,并且极端情况下,一定能够发生的事件应该没有信息量
- 比较不可能发生的事件具有更大的信息量
- 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
如果说概率P是对确定性的度量,信息是对不确定性的度量,这两者是相对的, 事件发生的概率越大,那么事件的信息量就越小, 事件的概率与事件的信息量之间成反比。
举例来说:如果事件A发生的概率比事件B发生的概率要大,那么我们就说事件B的信息量要比事件A的信息量要大。
信息量能够量化以上性质,定义一个事件x的自信息为: $$ I(x) = -log(p(x)) $$ 当该对数的底数为自然对数 e 时,单位为奈特(nats);当以 2 为底数时,单位为比特(bit)或香农(shannons).
信息熵是对平均不确定性的度量,本质上是所有事件的信息量的期望, 对整个概率分布中的不确定性总量进行量化:
$$
H(X) = E_{X}[I(x)]=-\sum_{x \in X} p(x)log(p(x)); \quad X 表示所有事件\
$$
信息论中,记 0log0 = 0
- 当且仅当某个
$P(X_i)=1$ ,其余的都等于0时, H(X)= 0。 - 当且仅当某个$P(X_i)=1/n,i=1, 2,……, n$时,$H(X)$ 有极大值 log n。
熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。
互信息
如果对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度来衡量这两个分布的差异。
- 定义: P 对 Q 的KL散度为:
-
含义:在离散型变量的情况下, KL 散度衡量的是:当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。
-
性质:
- **非负: **KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的.
- 不对称:$D_p(q) != D_q(p)$
- 设
$p(x), q(x)$ 为$X$ 中取值的两个概率分布,则$p$ 对$q$ 的交叉熵为:
在一定程度上,相对熵可以度量两个随机变量的“距离”。
-
针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的那一项。 $$ H_P(Q) = H(P) + D_P(Q)最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。 $$
-
最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。
-
联合熵
$H(X, Y)$ :两个随机变量X,Y的联合分布。 -
条件熵
$H(Y|X) $ :在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。
联合熵与条件熵的推导过程如下: $$ \begin{align} H(X, Y) - H(X) &= -\sum_{x,y} p(x,y) log , p(x,y) + \sum_x p(x) log , p(x) \ &= -\sum_{x,y} p(x,y) log , p(x,y) + \sum_x (\sum_y p(x,y)) , log , p(x) \qquad \text{边缘分布 p(x) 等于联合分布 p(x,y) 的和} \ &= -\sum_{x,y} p(x,y) log , p(x,y) + \sum_{x,y} p(x,y) , log , p(x) \ &= -\sum_{x,y} p(x,y) log \frac{p(x,y)}{p(x)} \ &= -\sum_{x,y} p(x,y) log p(y|x) \end{align} $$
-
$I(X, Y)$ :两个随机变量X,Y的互信息 为X,Y的联合分布和各自独立分布乘积的相对熵。
推导如下: