0%

密码学基础 Chapter 2——香农理论(一)

Chapter 2 Shannon理论

评价密码体制的安全性:
- 计算安全性:从计算上衡量密码体制的安全性
- 可证明安全性:通常使用规约法证明方案安全性
- 无条件安全:提供无限计算资源也无法攻破
上面三种安全性依次递增。

一. 密文概率

在密文中出现某一个字符的概率,与明文分布和密钥分布决定,即P(Y=y)P(Y=y)可以由P(X=x),P(K=k)P(X=x),P(K=k)推导

推广公式为:(全概率公式应用)

P(Y=y)=k:yC(k)P(K=k)P(X=dk(y))P(Y=y)=\sum_{k:y\in C(k)}P(K=k)P(X=d_k(y))

若密钥K随机等概率获取,则密文C不一定随机等概率。因为明文出现的概率未知。
若密文C等概率获取,则明文P不一定随机等概率。如下例:

a b c d e
k1 e d c b a
k2 a b c d e

Pr[a]=0.1,Pr[b]=0.15,Pr[c]=0.2,Pr[d]=0.25,Pr[e]=0.3Pr[k1]=Pr[k2]=0.5Pr[a]=0.1, Pr[b]=0.15, Pr[c]=0.2, Pr[d]=0.25, Pr[e]=0.3\\ Pr[k1]=Pr[k2]=0.5

密文等概率,但明文并不随机等概率

若明文P随机等概率获取,则密文C不一定随机等概率。证明如下:
如果P=C|P|=|C|则一定等概率,否则不一定。
证明:
首先证明当P=C|P|=|C|时,密文一定随机等概率
对于任意一密文字符cCc\in C,设密钥空间KK中密钥kik_i的概率为tit_i,设ei(xj)=yke_i(x_{j})=y_k,所有明文字符取值概率均为pp。由于对于任意kiKk_i\in KCP|C|\rightarrow |P|是一个双射,因此给定k,yC,xP,ek(x)=yk,\forall y\in C,\exist x\in P,e_k(x)=y,即yC,kK,xP,ek(x)=y\forall y\in C,\forall k\in K,\exist x\in P,e_k(x)=y。故

Pr[y=yk]=Kkixj=Kkip=pPr[y=y_k]=\sum_K k_ix_{j}=\sum_K k_ip=p

故所有密文字符取值概率相等。
PC|P|\ne |C|时,举出以下反例:

a b c
k1 1 2 5
k2 4 5 6

理解的关键在于此时CPC\rightarrow P不再是双射,对于一个密文可能不存在k能使其解密为任何一个明文,上面的算式就不成立了。

二. 完善保密性

一个密码具有完善保密性的必要条件:分析者无法通过观察密文得到明文。

单表代换密码不具有完善保密性,原因是明文和密文具有相同的概率分布特性。

定义:一个密码体制具有完全保密性,如果对于任意xPx\in PyCy \in C,都有Pr[xy]=Pr[x]Pr[x|y]=Pr[x],即密文字符随机变量与明文字符随机变量独立(或说明文x的后验概率等于其先验概率)

后验概率通过贝叶斯公式计算:

P(xy)=P(xy)P(y)=P(xy)xiXP(xi)P(yxi)=P(x)P(yx)xiXP(xi)P(yxi)=P(x){k:x=dk(y)}P(K=k)k:yC(k)P(K=k)P(X=dk(y))P(x|y)=\frac{P(xy)}{P(y)} =\frac{P(xy)}{\sum_{x_i\in X} P(x_i)P(y|x_i)} =\frac{P(x)P(y|x)}{\sum_{x_i\in X} P(x_i)P(y|x_i)} =\frac{P(x)\sum_{\{k:x=d_k(y)\}}P(K=k)}{\sum_{k:y\in C(k)} P(K=k)P(X=d_k(y))}

解释一下上式:
通过贝叶斯公式易得第三个等号后的式子,对于最后一个式子的变形:首先看分子,它表示明文字符为x且密文字符为y的概率。满足这种条件的密钥可能不止一个,因此可以将P(yx)P(y|x)改写为满足这种条件的密钥的总概率,即{k:x=dk(y)}P(K=k)\sum_{\{k:x=d_k(y)\}}P(K=k)。对于分母,它表示密文字符y的出现概率,对于每一个密钥,其都对应一个明文字符,使得该明文字符加密后成为该密钥字符y。因此可以将分母改写为密钥概率乘以对应明文出现概率。

定义的含义:

  1. 明文x和对应密文y具有统计独立关系
  2. 明密文之间的互信息I(x,y)=0I(x,y)=0(类似于相关系数)
  3. 攻击者分析y的统计规律无法推导出x

例:对于下面的加密系统,判断是否完善保密。

a b c d
k1 1 2 3 4
k2 2 3 4 5
k3 3 4 5 1
k4 4 5 1 2
k5 5 1 2 3

其中Pr[a]=12,Pr[b]=14,Pr[c]=Pr[d]=18Pr[a]=\frac{1}{2},Pr[b]=\frac{1}{4},Pr[c]=Pr[d]=\frac{1}{8},密钥等概率。

解: 计算略,完善保密。因为每一个明文被加密为任何一个密文的概率相等,因此对于每一个密文,其对应的明文为x的概率即为明文出现的概率。

三、完善保密性相关定理

定理1:假设移位密码的26个密钥以相同概率随机使用,对于任意的明文概率分布,移位密码都具有完善保密性。

证明:

要证明完善保密性,即证明对于任意xPx\in PyCy \in C,都有Pr[xy]=Pr[x]Pr[x|y]=Pr[x],其等价于对于任意xPx\in PyCy \in C,都有Pr[yx]=Pr[y]Pr[y|x]=Pr[y]。由于明文概率未知,因此Pr[x]Pr[x]无法确定,故证明其等价命题。

由全概率公式:
Pr[y]=kZ26Pr[K=k]Pr[X=dk(y)=(yk)mod26]=126kZ26Pr[X=(yk)mod26]=126Pr[y]=\sum_{k\in Z_{26}}Pr[K=k]Pr[X=d_k(y)=(y-k)\mod 26]\\ =\frac{1}{26}\sum_{k\in Z_{26}}Pr[X=(y-k)\mod 26]\\ =\frac{1}{26}

Pr[yx]=Pr[K=(yx)mod26]=126Pr[y|x]=Pr[K=(y-x)\mod 26]=\frac{1}{26}

证毕。

定理2:假设密码体制(P,C,K,E,D)(P,C,K,E,D)满足K=C=P|K|=|C|=|P|KCP|K|\ge |C|\ge |P|是完全保密的必要条件)。这个密码体制是完善保密的,当且仅当每个密钥被使用的概率相等,均为1K\frac{1}{|K|},且对于任意xP,yCx\in P,y\in C,均存在唯一密钥kk,使得ek(x)=ye_k(x)=y

证明:

充分性:见定理1的证明

必要性:该密码体制具有完全保密性,故Pr[yx]=Pr[y]Pr[y|x]=Pr[y],这表示对于任意的xP,yCx\in P,y\in C均存在kKk\in K使得ek(x)=ye_k(x)=y(否则Pr[yx]=0Pr[y|x]=0,与Pr[y]>0Pr[y]>0矛盾)
又如果存在有两个k1,k2Kk_1,k_2\in K,均有ek(x)=ye_k(x)=y,由于|C|=|K|,则就存在有yCy^*\in C,不存在kKk\in K,使得ek(x)=ye_k(x)=y^*,与Pr[y]>0Pr[y]>0矛盾
故对于一个确定的xPx\in P,能够建立双射Q:KCQ:K\rightarrow CQ(k)=yQ(k)=y表示k(x)=yk(x)=y

k不变时,x与y对应证法
由于Pr[yx]=Pr[y]Pr[y|x]=Pr[y],对于确定的xxPr[yx]=Pr[kK:ek(x)=y]=Pr[y]Pr[y|x]=Pr[k\in K:e_k(x)=y]=Pr[y]。如果改变x的值,可以得到:对于确定的k,有Pr[k]=Pr[y1]=Pr[y2]=...=Pr[yn]Pr[k]=Pr[y_1]=Pr[y_2]=...=Pr[y_n],对于每个kk均是如此,故密钥取值概率相等,均为1K\frac{1}{|K|}

y不变时,x与k对应证法
由贝叶斯公式:

Pr[xiy]Pr[y]=Pr[yxi]Pr[xi]Pr[y]=Pr[yxi]=Pr[kK:ek(xi)=y]Pr[x_i|y]Pr[y]=Pr[y|x_i]Pr[x_i]\Rightarrow Pr[y]=Pr[y|x_i]=Pr[k\in K:e_k(x_i)=y]

遍历x时,也能够遍历k。故所有密钥概率均为Pr[y]Pr[y]

四、一次一密密码体制

定义:
P=C=K=(Z2)nP=C=K=(Z_2)^n
ek(x)=(x1+k1,x2+k2,...,xn+kn)mod2e_k(x)=(x_1+k_1,x_2+k_2,...,x_n+k_n)\mod 2
dk(x)=(y1+k1,y2+k2,...,yn+kn)mod2d_k(x)=(y_1+k_1,y_2+k_2,...,y_n+k_n)\mod 2
可根据定理2证明其完善保密性。

五、完善保密性判定定理

假设密钥只使用一次

定理1:对密码体制(P,C,K,E,D)(P,C,K,E,D),若对于任意xP,yCx\in P,y\in C,有k:x=dk(y)Pr[k]=1P\sum_{k:x=d_k(y)}Pr[k]=\frac{1}{|P|},则该密码完善保密。

证明:

Pr[yx]=k:y=ek(x)Pr[k]=1PPr[y|x]=\sum_{k:y=e_k(x)}Pr[k]=\frac{1}{|P|}
由全概率公式:Pr[y]=k:y=ek(x)Pr[x]Pr[yx]=1PPr[y]=\sum_{k:y=e_k(x)}Pr[x]Pr[y|x]=\frac{1}{|P|}

深层理解:定理1与定理4的区别是:定理1的条件是充分条件,但无需满足P=C|P|=|C|的条件。如果PC|P|\ne |C|,上述结论仍可能成立,唯一的区别是Pr[yx]=Pr[y]1PPr[y|x]=Pr[y]\ne \frac{1}{|P|}。由密码体系定义可知,对于任何密码系统,均有PC|P|\le|C|。对于给定的xPx\in P,由全概率公式可知:Pr[x]=yiCPr[yi]Pr[xyi]=yiCPr[y]Pr[k:ek(x)=yi]Pr[x]=\sum_{y_i\in C} Pr[y_i]Pr[x|y_i]=\sum_{y_i\in C}Pr[y]Pr[k:e_k(x)=y_i],易得此时Pr[yi]Pr[y_i]不可能恒为1P\frac{1}{|P|},否则CPr[yi]>1\sum_C Pr[y_i]>1,这显然不可能。


定理2:对于密码体制(P,C,K,E,D)(P,C,K,E,D)KK等概率选取,若对于任意的xP,yC,k:x=dk(y)=KPx\in P,y\in C,|{k:x=d_k(y)}|=\frac{|K|}{|P|},则该密码体制完善保密。

证明:

Pr[yx]=Pr[k:x=dk(y)]=1KKP=1PPr[y|x]=\sum Pr[k:x=d_k(y)]=\frac{1}{|K|}\cdot \frac{|K|}{|P|}=\frac{1}{|P|}
Pr[y]=xiPPr[xi]Pr[yxi]=1PPr[y]=\sum_{x_i\in P} Pr[x_i]Pr[y|x_i]=\frac{1}{|P|}

深层理解:定理2与定理3的区别于定义1和定理4的区别类似,没有限定P=C|P|=|C|。如果二者不等,则存在有密码体制满足k:x=dk(y)KP|{k:x=d_k(y)}|\ne\frac{|K|}{|P|},但也满足上述结论。当其等于KC\frac{|K|}{|C|}时易证其也成立。


定理3:对于密码体制(P,C,K,E,D)(P,C,K,E,D)P=C|P|=|C|KK等概率选取,当且仅当对于任意的xP,yC,k:x=dk(y)=KPx\in P,y\in C,|{k:x=d_k(y)}|=\frac{|K|}{|P|},该密码体制完善保密。

证明:充分性已证明。
必要性:若该密码体制具有完全保密性,则Pr[y]=Pr[yx]Pr[y]=Pr[y|x],由于KK等概率选取,因此对于任意xP,yCx\in P,y\in Ck:x=dk(y)|{k:x=d_k(y)}|均相等。由于此时P=C|P|=|C|,因此对于给定的xx,可将kk分为数量相等(均为k:x=dk(yi)|{k:x=d_k(y_i)}|)的C|C|份,每一份中的kk加密xx均可得到相同的yy,不同份中的kk加密xx得到不同的yy。因此显然有k:x=dk(y)=KP|{k:x=d_k(y)}|=\frac{|K|}{|P|}


定理4:对于密码体制(P,C,K,E,D)(P,C,K,E,D)P=C|P|=|C|,且明文P|P|等概率选取。当且仅当对于任意xP,yCx\in P,y\in C,有k:x=dk(y)Pr[k]=1P\sum_{k:x=d_k(y)}Pr[k]=\frac{1}{|P|},该密码体制完善保密。

证明:充分性已证明。
必要性:Pr[y]=Pr[ki]Pr[xj]=1PPr[ki]=1PPr[y]=\sum Pr[k_i]Pr[x_j]=\frac{1}{|P|}\sum Pr[k_i]=\frac{1}{|P|}

深层理解:这里需要两个条件,一个是明文空间和密文空间元素个数相等,另一个是明文等概率选取。如果明文不等概率会怎样呢?此时必要性就无法成立,那能否举一个不满足此充分条件又能够使结论成立的条件呢?。设第一个条件仍然成立,xix_i的出现的概率为Pr[xi]Pr[x_i],此时证明Pr[x]=Pr[xy]Pr[x]=Pr[x|y]。对于给定的xPx^*\in PPr[x]Pr[x^*]已知,设为PP,那么Pr[xy]=Pr[xy]Pr[y]=Pr[k:x=dk(y)]Pr[x]Pr[y]=PPr[x^*|y]=\frac{Pr[x^*y]}{Pr[y]}=\frac{\sum Pr[k:x^*=d_k(y)]Pr[x^*]}{Pr[y]}=P。要使得Pr[xy]=Pr[x]Pr[x^*|y]=Pr[x^*],则有Pr[y]=Pr[k:x=dk(y)]Pr[y]=\sum Pr[k:x^*=d_k(y)],即对于任意密文字符yy,其出现的概率均等于能够将yy解密为xx^*的全部密钥的出现概率。

六、 自信息量

  • 信息量
    • 对信息的直观认识
      • 信道上传送随机变化的值
      • 时间发生概率与信息量的关系
      • 消息间的依赖关系与相互之间的信息量
      • 信息消除不确定性
      • 信息可加
  • 自信息量
    单符号离散信源的数学模型可用一位随机变量XX的概率空间描述,即每个xXx\in X均对应一个概率p(xi)p(x_i),如果信源发出消息xix_i的概率为p(xi)p(x_i),则其能提供的自信息量(自信息)为:(式中的底数可以换,这里由于使用比特作为信息媒介,因此使用2作为底数。如果使用10进制数字,则就应使用10作为底数,即底数由媒介的可能取值数决定)

I(xi)=log21p(xi)=log2p(xi)I(x_i)=\log_2\frac{1}{p(x_i)}=-\log_2p(x_i)

理解:信源发出信号前信宿对消息的不确定,信源发出信息后提供给信宿的信息量,即消除不确定性所需要的信息量。如可能的情况一共8种,那么自然需要3个比特才能表示所有状态,能够确定这个信息属于什么状态。

  • I(xi)I(x_i)的性质:

    • 非负
    • P(xi)=1P(x_i)=1I(xi)=0I(x_i)=0
    • P(xi)=0P(x_i)=0I(xi)=+I(x_i)=+\infty
    • p(i)p(i)的单调递减函数
  • 联合自信息量

    • 涉及多个随机变量XiX_i,其中每一个联合事件均有一个概率
    • I(x1x2...xn)=log2p(x1x2...xn)I(x_1x_2...x_n)=-\log_2p(x_1x_2...x_n)
    • 当这些变量均独立时,I(x1x2...xn)=I(x1)+I(x2)+...+I(xn)I(x_1x_2...x_n)=I(x_1)+I(x_2)+...+I(x_n)
  • 条件自信息量

    • 类比条件概率
    • 后验概率:I(xiyj)=log2p(xiyj)I(x_i|y_j)=-\log_2p(x_i|y_j)
    • 信道转移概率:I(yjxi)=log2p(yjxi)I(y_j|x_i)=-\log_2p(y_j|x_i)
    • I(xiyj)=log2p(yjxi)p(xi)=I(xi)+I(yjxi)=I(yj)+I(xiyj)I(x_iy_j)=-\log_2p(y_j|x_i)p(x_i)=I(x_i)+I(y_j|x_i)=I(y_j)+I(x_i|y_j)
  • 互信息量

    • I(xi;yj)=I(xi)I(xiyj)=log2p(xiyj)p(xi)I(x_i;y_j)=I(x_i)-I(x_i|y_j)=\log_2\frac{p(x_i|y_j)}{p(x_i)},即先验不确定度-后验不确定度

直观理解:

自信息量:信息本身发生的概率决定本信息的可识别度。信息发生的概率越高,可识别度越低,只需要很少的比特位就可以将其完全表示,提供给我们的信息也越少;信息发生的概率越低,可识别度越高,需要更多的比特位来表示,提供给我们的信息也越多。我们可以想象一下,如果一个事件一定发生,那这个时间对于我们没有价值,因为我们不需要任何信息就知道它一定发生;如果一个事件很难发生,比如中彩票,只要发生,就能提供具有很强识别度的信息,中彩票之后,你可以买车,买很多东西都可以,但是不中的话,也就只是不中而已,生活照常进行没有任何影响。我们可以粗略地将每一个比特位看成概率的划分,如对于2位比特位,其有00,01,10,11四种状态,可以将整个概率空间1分为4个部分,每个部分代表25%概率。假设有4个事件,概率均为25%,且任意两个事件不可能同时发生(想象成箱子中有4个球,随机拿一个球)。此时,如果我们只给出一个比特位,如0,它能确定我们拿出来的是什么球吗?显然不能,因为一个比特位只有两种状态:0和1。如果将2位比特位与摸出的球的编号一一对应,那么一位比特位就能够代表摸出某2个球,但不可能是剩下2个球。我们虽然不能通过1个比特位确定到底拿的是什么球,但至少缩小了范围,当然这还不够。如果我们能够知道两个比特位,那么我们就能够最终确定我们拿出来的是什么球。

注意!每一个比特位对于概率的分配都是均分,不存在对于一个比特位中0和1表示不同的概率。

我们考虑一种最为普通的情况:事件A发生的概率为90%,那么我们只需要1个比特位就能够确认事件A是否发生。如果将0代表为A发生,那么1就代表A一定不发生吗?那可未必。A发生的概率是90%,比特位为0的概率为50%,因此如果比特位为1,那么A发生的概率还有80%(条件概率),但是此时A是否发生就是不确定的了。不过我们并不需要考虑1的情况,因为0就足以确认A发生。如果我们要表示A不发生的概率,那么就至少需要4个比特位,4个比特位共有16种状态,其中至多可以有一个状态能被完全包含在A不发生的概率之中,这也就确定了A不发生。

联合自信息量:理解了自信息量之后,联合自信息量也就不难理解。不过是将一个随机变量变成了多个而已。

条件自信息量:需要分先验和后验进行理解。先验的条件自信息量以先验概率为基础计算,又称信道转移概率。举一个通俗的例子:假如在某地冬天,一天气温低于0度的概率为30%,在低于0度的情况下,附近一条河流结冰的概率为80%。如果我们抛开气温不管只看河流是否结冰,此时河流结冰的概率应为24%,通过河流结冰,我们能够获得较多信息,比如今天大概率很冷。但如果我们已经知道了今天温度低于0度,再看到河流结冰时,能够获取的信息就不多了,因为此时河流结冰几乎是自然而然发生的事情,不需要任何怀疑。相反地,后验的条件自信息量以后验概率为基础计算,与先验概率的理解类似。还是上面的例子,今天河流结冰了,那么如果今天温度高于0度,那就很值得研究了,因为这种情况理论上是不可能发生的。

互信息量:表现两个随机变量之间的联系。为随机变量X的先验不确定度-后验不确定度。如果互信息量大于0,说明Y的发生减少了X提供的信息量。如果小于0,说明Y的发生增加了X提供的信息量。因为X和Y如果有联系,那么Y的发生可能会改变X发生的概率。

七、熵

定义:随机变量X的信息熵定义为自信息量I(x)I(x)的数学期望,简称熵。

H(X)=E[I(x)]=xXp(x)(log2p(x))H(X)=E[I(x)]=-\sum_{x\in X}p(x)(\log_2p(x))

理解:

  • 熵非负
  • 信源发出前,表示信源的平均不确定度
  • 信源发出后,表示信源提供的平均信息量
  • 是一个统计量,反映了随机变量XX的随机性

定理2.6

假设随机变量XX的概率分布为p1,p2,...,pnp_1,p_2,...,p_n,则H(X)log2nH(X)\le \log_2n,当且仅当pi=1np_i=\frac{1}{n}时等式成立

证明:
使用琴生(Jensen)不等式:在上凸函数中,有i=1naif(xi)f(i=1naixi),i=1nai=1,ai>0\sum_{i=1}^na_if(x_i)\le f(\sum_{i=1}^na_ix_i),\sum_{i=1}^na_i=1,a_i>0,当且仅当x1=...=xnx_1=...=x_n时等号成立
由上述不等式可知

H(X)=i=1npi(log21pi)log2(i=1n(pi1pi))=log2nH(X)=\sum_{i=1}^np_i(\log_2\frac{1}{p_i})\le \log_2(\sum_{i=1}^n(p_i\cdot\frac{1}{p_i}))=\log_2n

当且仅当pi=1np_i=\frac{1}{n}时等式成立,证毕。

  • 联合熵:两个随机变量的熵。性质:

max[H(X1),...,H(Xn)]H(X1X2...Xn)H(X1)+...+H(Xn)\max[H(X_1),...,H(X_n)]\le H(X_1X_2...X_n)\le H(X_1)+...+H(X_n)

定理2.7

H(XY)H(X)+H(Y)H(XY)\le H(X)+H(Y),当且仅当XXYY统计独立时等号成立

证明:设Pr[X=xi,Y=yj]=rij,Pr[X=xi]=pi,Pr[Y=yj]=qjPr[X=x_i,Y=y_j]=r_{ij},Pr[X=x_i]=p_i,Pr[Y=y_j]=q_j
H(XY)=i=1mj=1nrijlog21rijH(XY)=\sum_{i=1}^m\sum_{j=1}^nr_{ij}\log_2\frac{1}{r_{ij}}
H(X)=i=1mpilog21pi=i=1mj=1nrijlog21piH(X)=\sum_{i=1}^mp_i\log_2\frac{1}{p_i}=\sum_{i=1}^m\sum_{j=1}^nr_{ij}\log_2\frac{1}{p_i}
H(Y)=j=1nqjlog21qj=j=1ni=1nrijlog21qjH(Y)=\sum_{j=1}^nq_j\log_2\frac{1}{q_j}=\sum_{j=1}^n\sum_{i=1}^nr_{ij}\log_2\frac{1}{q_j}
H(XY)H(X)H(Y)=i=1mj=1nrijlog2piqjrijlog2(i=1mj=1npiqj)=0H(XY)-H(X)-H(Y)=\sum_{i=1}^m\sum_{j=1}^nr_{ij}\log_2\frac{p_iq_j}{r_{ij}}\le \log_2(\sum_{i=1}^m\sum_{j=1}^np_iq_j)=0

  • 条件熵:H(XY)=xXyYp(xy)log2p(xy)H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2p(x|y)
    • 对于Y的任意取值y得到一个X上的条件概率分布,相应的随机变量即为XyX|y,可知

H(Xy)=xXp(xy)log2p(xy)H(X|y)=-\sum_{x\in X}p(x|y)\log_2p(x|y)

- 上式对y加权平均即得到$H(X|Y)$的值

定理2.8

H(XY)=H(Y)+H(XY)H(XY)=H(Y)+H(X|Y)

证明:两边分别展开易证

推论2.9

H(XY)H(X)H(X|Y)\le H(X),当且仅当XXYY统计独立时等号成立。

证明:

H(XY)=xXyYp(xy)log2p(xy)=xXyYp(xy)log2p(y)p(xy)=xXyYp(x)p(yx)log2p(y)p(xy)H(X)=xXp(x)log21p(x)H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2p(x|y)=\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2\frac{p(y)}{p(xy)}=\sum_{x\in X}\sum_{y\in Y}p(x)p(y|x)\log_2\frac{p(y)}{p(xy)}\\ H(X)=\sum_{x\in X}p(x)\log_2\frac{1}{p(x)}

即证

xXyYp(yx)log2p(y)p(xy)xXlog21p(x)\sum_{x\in X}\sum_{y\in Y}p(y|x)\log_2\frac{p(y)}{p(xy)}\le \sum_{x\in X}\log_2\frac{1}{p(x)}

即证

xXyYp(yx)log2p(x)p(y)p(xy)0\sum_{x\in X}\sum_{y\in Y}p(y|x)\log_2\frac{p(x)p(y)}{p(xy)}\le 0

即证

xXyYp(yx)log2p(y)p(yx)0xXyYp(yx)log2p(y)p(yx)xXlog2(yYp(y))=xXlog21=0\sum_{x\in X}\sum_{y\in Y}p(y|x)\log_2\frac{p(y)}{p(y|x)}\le 0\\ \sum_{x\in X}\sum_{y\in Y}p(y|x)\log_2\frac{p(y)}{p(y|x)}\le \sum_{x\in X}\log_2(\sum_{y\in Y}p(y))=\sum_{x\in X}\log_21=0

证毕

八、平均互信息量

I(X;Y)I(X;Y)定义为互信息量在联合概率空间上的数学期望

I(X;Y)=E[I(x;y)]=xXyYp(xy)I(x;y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(XY)I(X;Y)=E[I(x;y)]=\sum_{x\in X}\sum_{y\in Y}p(xy)I(x;y)\\ =H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)

xXyYp(xy)I(x;y)=xXyYp(xy)log2p(xy)p(x)p(y)H(X)=xXp(x)log21p(x)=xXyYp(xy)log21p(x)H(Y)=yYp(y)log21p(y)=xXyYp(xy)log21p(y)H(XY)=xXyYp(xy)log21p(xy)\sum_{x\in X}\sum_{y\in Y}p(xy)I(x;y)=\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2\frac{p(xy)}{p(x)p(y)}\\ H(X)=\sum_{x\in X}p(x)\log_2\frac{1}{p(x)}=\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2\frac{1}{p(x)}\\ H(Y)=\sum_{y\in Y}p(y)\log_2\frac{1}{p(y)}=\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2\frac{1}{p(y)}\\ H(XY)=\sum_{x\in X}\sum_{y\in Y}p(xy)\log_2\frac{1}{p(xy)}

性质:

  • 非负
  • 对称:I(X;Y)=I(Y;X)min{H(X),H(Y)}I(X;Y)=I(Y;X)\le \min\{H(X),H(Y)\}
  • 当X,Y概率独立时,I(X;Y)=0I(X;Y)=0
  • 当X,Y存在有一一对应关系时,I(X;Y)=H(X)=H(Y)I(X;Y)=H(X)=H(Y)

平均条件互信息量:I(X;YZ)=I(X;YZ)I(X;Z)I(X;Y|Z)=I(X;YZ)-I(X;Z)