二章信息量和熵.ppt

上传人:本田雅阁 文档编号:2506592 上传时间:2019-04-04 格式:PPT 页数:66 大小:624.51KB
返回 下载 相关 举报
二章信息量和熵.ppt_第1页
第1页 / 共66页
二章信息量和熵.ppt_第2页
第2页 / 共66页
二章信息量和熵.ppt_第3页
第3页 / 共66页
亲,该文档总共66页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《二章信息量和熵.ppt》由会员分享,可在线阅读,更多相关《二章信息量和熵.ppt(66页珍藏版)》请在三一文库上搜索。

1、第二章 信息量和熵,信息量和熵,2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性,2.1 离散变量的非平均信息量,输入,输出空间定义,输入空间X=xk,k=1,2,K,概率记为q(xk) 输出空间Y=yj,j=1,2,J,概率记为(yj) 联合空间XY=xkyj ;k=1,2,K;j=1,2,J, 概率为p(xkyj) p(xkyj)= p(xk|yj)(yj)= p(yj|xk)q(xk),非平均互信息量,例2.1.1,非平均互信息量,非平均互信息量,例2.1.2,非平均互信息量,非平

2、均互信息量,定义2.1.1(非平均互信息量) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就给定了两个离散型随机变量 X, xk, qk, k=1K和Y, yj, wj, j=1J)。事件xkX与事件yjY的互信息量定义为,非平均互信息量,其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。 几点说明: (1)I(xk; yj)=loga(rkj/(qkwj)。因此有对称性: I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独立时,互信息量为0)。 (

3、3)当rkjqkwj时I(xk; yj)0,当rkjqkwj时I(xk; yj)0。(当两个事件正相关时,互信息量为正值,当两个事件负相关时,互信息量为负值)。,条件互信息和联合事件互信息,三个事件集的条件互信息定义为 可以推广到任意有限多个空间情况,互信息的可加性,系统,u1,u2,u3,互信息量特性:,对称性 可加性 互信息量的值域: -infinite +infinite, 即全体实数,离散变量的非平均自信息量,定义:给定集合X, q(xk),事件xkX的自信息量定义为:,非平均自信息的性质,非负性 体现先验不确定性大小,条件自信息和联合自信息,自信息、条件自信息和互信息,2.2 离散集

4、的平均自信息量熵,熵,集X中事件出现的平均不确定性,(平均自信息量熵) 离散型随机变量X, xk, qk, k=1K的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。,熵,注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为,熵,例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。 则X的平均自信息量(

5、熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p) 。 观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有 当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0) 当00。p越靠近1/2, H(X)越大。 (X是真正的随机变量时,总有正的熵。随机性越大,熵越大) 当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特),条件熵(定义2.2.2),XY独立时有H(X|Y)=H(X),联合熵,熵的性质,对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数,熵是概

6、率矢量的函数,P(p1, p2, , pk)可以看作是K维矢量,当 ,常称作是概率矢量; 故HK(P)=HK(p1, p2, , pk)是概率矢量P的函数,熵的性质对称性,矢量的各分量p1,p2,pk的次序任意改变时,熵值不变 熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关,熵的性质非负性,HK(P) = HK(p1, p2, , pK) 0 可由单个事件自信息量的非负性得到,熵的性质确定性,若事件集X中有一个事件为必然事件,其余事件为不可能事件,则此集合的熵值为0,熵的性质扩展性,熵的性质可加性,H(p1q11,p1q12,p4q44

7、)=H(p1,p4)+p1H(q11,q14)+p4H(q41,q44),熵的性质极值性,引理1: lnxx-1 引理2: H(X|Y) H(X) H(U1UN) H(U1)+H(UN),熵的性质凸性,H(P)是P的上凸函数,2.3 离散集的平均互信息量,平均互信息量,定义2.4.1(平均互信息量) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就给定了两个离散型随机变量X, xk, qk, k=1K和Y, yj, wj, j=1J)。X与Y的平均互信息量定义为如下的I(X; Y):,平均互信息量,注意:事件对(xk, yj)的互信息量值为I

8、(xk; yj)。此外,可以定义半平均互信息量I(xk; Y)和I(X; yj)。,平均互信息量的性质,非负性 I(X;Y) 0 对称性 I(X;Y)=I(Y;X) 平均互信息用熵与条件熵表示 平均互信息与熵的关系: I(X;Y) H(X) or H(Y) 若X是Y的确定的函数X=g(Y),则I(X;Y)=H(X)H(Y); 若Y是X的确定的函数Y=g(X),则I(X; Y)=H(Y)H(X)。,平均互信息量,一般印象 (平均互信息量I(X; Y)的各种性质与我们对“互信息量”这个名词的直观理解非常吻合)。 一般情形:总有0I(X; Y)minH(X), H(Y)。 一种极端情形:若X与Y相互

9、独立,则I(X; Y)=0。 另一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X; Y)=minH(X), H(Y)。,平均互信息量,平均条件互信息与联合互信息,信息处理定理,Z出现情况下,X和Y独立,信息处理定理,2.4 连续随机变量的互信息和相对熵,连续随机变量的互信息,定义2.5.1 给定二维连续型随机变量(X, Y), f(X,Y)(x, y)(因此就给定了两个连续型随机变量X, fX(x)和Y, fY(y))。事件xX与事件yY的互信息量定义为,连续随机变量的平均互信息,I(X; Y | Z) I(XY; Z),定义2.5.2 给定二维连续型随机变量(X, Y), f

10、(X,Y)(x, y)(因此就给定了两个连续型随机变量X, fX(x)和Y, fY(y))。 X与Y的平均互信息量定义为,性质,非负性 对称性 数据处理定理 关系,连续随机变量的相对熵,(连续型随机变量为什么不能类似地定义平均自信息量熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“相对熵”,而“相对熵”的直观合理性大打折扣),相对熵的定义 给定连续型随机变量X, fX(x)。 X的相对熵定义为,连续随机变量的相对熵,HC(XY) HC(Y | X), HC(Y | X) HC(Y) 互信息与相对熵 I(X ; Y)HC(

11、X)HC(X | Y)HC(Y)HC(Y | X) HC(X)+HC(Y)HC(X, Y) HC(X, Y)HC(X)+HC(Y)I(X ; Y),均匀随机变量的相对熵,例2.5.2 设XU(a, b),求X的相对熵(我们将发现, X的相对熵未必非负)。,正态随机变量的相对熵,例2.5.3 设XN(m, 2),求X的相对熵(我们将发现, X的相对熵未必非负)。,正态随机变量的相对熵,熵功率,相对熵不具有非负性,例2.5.3,练习:,试求指数分布连续信源的熵,相对熵的极大化,1.峰值功率受限 均匀分布相对熵最大:HC(X) log 2M 2.平均功率受限 高斯分布相对熵最大 3.平均功率大于等于

12、熵功率,2.5 凸函数与互信息的凸性,凸函数,凸集R:a,b属于R,qa+(1-q)b也属于R,其中0q1 概率矢量: 矢量a的所有分量非负,且和为1 概率矢量全体所构成的区域R是凸的 上凸函数 下凸函数,凸函数的性质,f(a)是上凸的,f(a)是下凸的 f1(a),fL(a)是R上的上凸函数,c1,cL是正数,c1f1(a)+cLfL(a)也是上凸函数 Jensen不等式: f(a)是上凸函数,Ef(a)fE(a),E为求数学期望,记离散型随机变量X的事件为1,2,K。 记X的概率分布为P(X=k)=qk,k=1K。 记离散型随机变量Y的事件为1,2,J。 记条件概率P(Y=j|X=k)=p

13、(j|k)。则 rkj=P(X, Y)=(k,j)=qkp(j|k),(概率论中的乘法公式) wj=P(Y=j)=k qkp(j|k),(概率论中的全概率公式),互信息的凸性,互信息的凸性,设条件概率p(j|k),k=1K,j=1J被确定。此时I(X; Y)是概率向量q=(q1, q2, , qK)的函数。我们希望找到这样的概率向量,使得对应的I(X; Y)达到最大。这就是说,记 我们希望找到这样的K维概率向量a=(a1, a2, , aK),使得,K-T条件,f(a)是定义域R上的上凸函数,a是概率矢量。偏导数 存在且连续, f(a)在R上为极大的 充分必要条件 其中l为一常数。,互信息的凸

14、性,p(y | x)给定,I(X; Y)是q(x)的上凸函数 q(x)给定,I(X; Y)是p(y | x)的下凸函数,互信息的凸性,定理2.6.2的含义 K维概率向量a=(a1, a2, , aK)使得 当且仅当:以a为X的概率向量的时候,I(X=k; Y)对所有ak0的k都取一个相同的值C; I(X=k; Y)对所有满足ak=0的k都取值不超过上述的相同值C 。,互信息的凸性,I(X=k; Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量”。,互信息的凸性,例 设X的事件有0、1; Y的事件有0、1; 已知 p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。 当X服从等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)时,I(X;Y)达到最大。因为此时,互信息的凸性,小结,信息的度量熵,信息量 熵的极大性 熵,平均互信息的关系 条件熵,联合熵,条件互信息,联合互信息 互信息的凸性 信息处理定理,讨论,10个硬币中有一个重量偏轻,其他9个为标准重量。在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么? 世界杯冠军预测方法。 信息论与大数据。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1