互信息是信息论里一种有用的 信息度量 ,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。简单说,就是两个事件集合之间的相关性。
比如,在图像处理中,常常需要比较两幅图像的相似度,互信息就是其中一种较为常用的方法,其核心思想就是熵。
熵
在互信息中有用到熵的概念,这里我们再简单介绍一下熵。
熵最初是热力学中表征物质状态的参量。其物理意义就是体系的混乱程度。任何一种能量在空间中分布的越均匀,熵越大。当完全均匀分布时,这个系统的熵就达到了最大值,也就是说此时的系统越混乱。
对于事件来说,当所有状态概率相等的时候熵最大,这个时候系统对取什么态没有偏向性,所以混乱度最大。
在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。(这里指的是信息量)
信息熵
在我们处理信息的过程中,我们知道的事件确定性越大,所获取到的信息就会越少。比如,我们知道某件事情一定会发生,那么我们就不会接收到其它信息了。
所以我们获取信息内容的度量,是依赖于概率分布 P(x) ,因此我们要找到的信息量公式 h(x) 是需要随着概率单调递减的函数。所以这里我们选择了
那么对于同一个事件,如果有多种可能,比如下图这样:
那么就可以用来描述信息熵了
上面所提到的底数都没有设置,可以为 2 e 10 ,只是表征一个度量,并没有固定死要求。
互信息的计算公式在信息熵层面可以理解为:
其中的 H(A,B)为联合熵。
相对熵
相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布P Q ,我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。下面是维基百科对相对熵的描述
In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.
n为事件的所有可能性。 KL值越小,表示q分布和p分布越接近。
对上式进行变形:
交叉熵:交叉熵实际上是更广泛的相对熵的特殊形式
互信息
互信息实际上是更广泛的相对熵的特殊形式,如果(x,y)~ p(x,y) , X ,Y 之间的互信息 I(XY) 定义为:
使用概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为
平均互信息
平均互信息表征了两个集合之间的关联程度。具有以下物理含义:
平均互信息 = 先验的平均不确定性 – 观察到 Y后 X保留的平均不确定性。
平均互信息 = 接收到Y后X 的平均不确定性消除的程度。
平均互信息 = 接收到Y 后获取到关于X 的平均信息量。
在联合集(X,Y)上,把互信息量 I(ab) 的概率加权平均值定义为平均互信息量。其定义式为:
自信息
自信息(英语:self-information),又译为信息本体,由克劳德·香农提出,用来衡量单一事件发生时所包含的信息量多寡。它的单位是bit,或是nats。
自信息的含义包括两个方面:
1.自信息表示事件发生前,事件发生的不确定性。
2.自信息表示事件发生后,事件所包含的信息量,是提供给信宿的信息量,也是解除这种不确定性所需要的信息量。
互信息 :
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性 。
离散随机事件之间的互信息:
换句话说就是,事件x,y之间的互信息等于“x的自信息”减去 “y条件下x的自信息”。 I(x)表示x的不确定性,I(x|y)表示在y发生条件下x的不确定性,I(xy)表示当y发生后x不确定性的变化。 两个不确定度之差,是不确定度消除的部分,代表已经确定的东西,实际就是由y发生所得到的关于x的信息量。互信息可正可负(但是自信息一定是正的),所以就有了任何两事件之间的互信息不可能大于其中任一事件的自信息。(毕竟I(xy)=I(yx)=I(x)-I(x|y)=I(y)-I(y|x), I(x|y)和I(y|x)皆大于0 )
如果x事件提供了关于另一事件y的负的信息量,说明x的出现不利于y的出现。
另一个角度,如果x和y统计独立,即I(x|y)=I(y|x)=0. 则就会出现I(xy) = I(x) 这种情况!,这也说明了另一个问题,就是一个事件的自信息是任何其他事件所能提供的关于该事件的最大信息量。
信息熵:
含义:
1.在信源输出后,表示每个信源符号所提供的平均信息量。
2.在信源输出前,表示信源的平均不确定性。
3.表示信源随机性大小,H(x)大的,随机性大
4.当信源输出后,不确定性解除,熵可视为解除信源不确定性所需的信息量。
信息熵的计算:
离散信源的熵等于所对应的有根概率树上的所有节点(包括根节点,不包括叶)的分支熵用该节点概率加权的和,即H(x)=∑q(ui)H(ui) 式中q(ui)为节点ui的概率,H(ui)为节点ui的分支熵。
条件熵:
另外 【 H(1/2) = 2* -1*(1/2)log2(1/2) = 1 H(1/3)=3* -1*(1/3)log2(1/3) = log23 ≈1.585 bit/符号】
联合熵:
另外【 H(1/3,1/3,1/3)=3* -1*(1/3) (1/3) = log23 ≈1.585 bit/符号 ,H() 的括号中如果只有一个分数1/2,那么就代表是 H(1/2,1/2) 毕竟2*1/2=1,同理H(1/3)代表 H(1/3,1/3,1/3) 】
熵的基本性质:
1.对称性 2.非负性 3.拓展性 4.可加性
有以下表述:
5.极值性
离散最大熵定理:对于有限离散随机变量集合,当集合中的事件等概率发生时,熵达到最大值。可由散度不等式证明:
即H(x)≤logn,仅当P(x)等概率分布时等号成立。
6.确定性 :当随机变量集合中任一事件概率为1时,熵就为0. 换个形式来说,从总体来看,信源虽含有许多消息,但只有一个消息几乎必然出现,而其他消息几乎都不出现,那么,这是一个确知信源,从熵的不确定性概念来讲,确知信源的不确定性为0.
7上凸性:H(p)=H(p1,p2,p3,...,pn)是(p1,p2,p3,...,pn)的严格上凸函数。
各类熵之间的关系:
1.条件熵与信息熵之间的关系
H(Y|X) ≤ H(Y) 这说明了:在信息处理的过程中,条件越多,熵越小。
2.联合熵和信息熵的关系
H(X1X2...XN)≤∑i=1N H(Xi) 当且仅当Xi相互独立时,等式成立。
熵函数的唯一性:
如果熵函数满足:(1)是概率的连续函数 (2)信源符号等概率时是n(信源符号数)的增函数(H(X)=log2n); (3)可加性 (H(XY) = H(X) + H(Y|X) =H(Y) + H(X|Y) )
那么,熵函数的表示是唯一的,即只与定义公式相差一个常数因子。
互信息(Mutual Information) - gatherstars - 博客园 (cnblogs.com)
在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。
信息论基础 学习笔记(1) - 知乎 (zhihu.com)
互信息(mutual information) 是信息论中最重要的概念之一。它的对象是两个随机变量。互信息就是指这两个随机变量包括对方的信息的量。举个例子:X指性别,男生还是女生;Y指头发长度,长头发还是短头发。这一个有一个人,Ta是长头发,那Ta是女生的概率就更大。同理,Ta是男生,那么Ta拥有短头发的概率就更大。可以看出,头发长短暗含了一定的性别信息。那么暗含的信息量有多少呢?就是互信息。我们可以如下定义互信息:
互信息(Mutual Information)浅尝辄止(一):基础概念 - 知乎 (zhihu.com)
互信息是信息论中用以评价两个随机变量之间的依赖程度的一个度量。
举个例子:x=今天下雨与y=今天阴天,显然在已知y的情况下, 发生x的概率会更大
其中是观察到的变量分布,q是我们找到的一个尽量分布。是一个非对称的度量,这里我们希望对于较大概率出现的时,近似值和实际分布的信息量差异应该有个较大权重。