1、贝叶斯估计Bayes Estimation例子:我定点投篮,投5次,次次投中,问:我的投篮技术如何?科比投篮,投100次,次次投中,问:科比投篮技术如何?经典方法:矩法估计、极大似然估计100%但是:几个学派(1)经典学派:频率学派,带头人:Pearson、Fisher、Neyman观点:概率就是频率 参数就是参数联合分布密度:p(x1,x2,.xn;)频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学概率指的是相对频率,是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如:一个95的置信区间应覆盖参数真实值至
2、少95的频率。统计学更多关注频率推断几个学派(2)Bayesian学派:带头人:Bayes,Laplace,Jeffreys,Robbins观点:频率不只是概率 存在主观概率,和实体概率可转化 参数作为随机变量条件分布:p(x1,x2,.xn|)贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述,即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到机器学习和数据挖掘更偏爱贝叶斯推断批评1:置信区间置信区间
3、解释:区间u1,u2覆盖u的概率 不是u位于区间的概率缺点:u不是变量批评2:评价方法假设检验、参数估计等都是多次重复的结果;想知道:一次实验发生的可能性回忆贝叶斯规则亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来贝叶斯方法贝叶斯推断的基本步骤如下:选择一个概率密度函数 ,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。选择一个模型 (在此处记为 )来反映在给定参数 情况下我们对x的信念。当得到数据 X1,X2,Xn 后,我们更新我们的信念并且计算后验分布 。从后验分布中得到点估计和区间估计。6.4.2 贝叶斯公式的密度函数形式 总体依赖于参数 的概率函数在
4、贝叶斯统计中记为P(x|),它表示在随机变量取某个给定值时总体的条件概率函数;根据参数 的先验信息可确定先验分布();从贝叶斯观点看,样本 x1,x2,xn 的产生分两步进行:首先从先验分布()产生一个样本0,然后从P(x|0)中产生一组样本。这时样本的联合条件概率函数为 ,这个分布综合了总体信息和样本信息;0 是未知的,它是按先验分布()产生的。为把先验信息综合进去,不能只考虑0,对的其它值发生的可能性也要加以考虑,故要用()进行综合。这样一来,样本x1,xn和参数 的联合分布为:h(x1,x2 ,xn,)=p(x1,x2 ,xn)(),这个联合分布把总体信息、样本信息和先验信息三种可用信息
5、都综合进去了;在没有样本信息时,人们只能依据先验分布对 作出推断。在有了样本观察值 x1,x2,xn 之后,则应依据 h(x1,x2,xn,)对 作出推断。由于 h(x1,x2,xn,)=(x1,x2,xn)m(x1,x2,xn),其中 是x1,x2,xn 的边际概率函数,它与 无关,不含 的任何信息。因此能用来对 作出推断的仅是条件分布(x1,x2,xn),它的计算公式是 这个条件分布称为 的后验分布后验分布,它集中了总体、样本和先验中有关 的一切信息。后验分布(x1,x2,xn)的计算公式就是用密度函数表示的贝叶斯公式。它是用总体和样本对先验分布()作调整的结果,贝叶斯统计的一切推断都基于
6、后验分布进行。6.4.3 贝叶斯估计 基于后验分布(x1,x2,xn)对 所作的贝叶斯估计有多种,常用有如下三种:使用后验分布的密度函数最大值作为 的点估计,称为最大后验估计;使用后验分布的中位数作为 的点估计,称为后验中位数估计;使用后验分布的均值作为 的点估计,称为后验期望估计。用得最多的是后验期望估计,它一般也简称为贝叶斯估计,记为 。例6.4.2 设某事件A在一次试验中发生的概率为,为估计,对试验进行了n次独立观测,其中事件A发生了X次,显然 X b(n,),即 假若我们在试验前对事件A没有什么了解,从而对其发生的概率 也没有任何信息。在这种场合,贝叶斯本人建议采用“同等无知”的原则使
7、用区间(0,1)上的均匀分布U(0,1)作为 的先验分布,因为它取(0,1)上的每一点的机会均等。贝叶斯的这个建议被后人称为贝叶斯假设。由此即可利用贝叶斯公式求出 的后验分布。具体如下:先写出X和 的联合分布 然后求X的边际分布 最后求出 的后验分布 最后的结果说明 X Be(x+1,n-x+1),其后验期望估计为 (6.4.4)某些场合,贝叶斯估计要比极大似然估计更合理一点。比如:“抽检3个全是合格品”与“抽检10个全是合格品”,后者的质量比前者更信得过。这种差别在不合格品率的极大似然估计中反映不出来(两者都为0),而用贝叶斯估计两者分别是 0.2 和 0.083。由此可以看到,在这些极端情
8、况下,贝叶斯估计比极大似然估计更符合人们的理念。例6.4.3 设x1,x2,xn是来自正态分布N(,02)的一个样本,其中02已知,未知,假设 的先验分布亦为正态分布N(,2),其中先验均值和先验方差 2均已知,试求 的贝叶斯估计。解:样本x的分布和 的先验分布分别为由此可以写出x与 的联合分布其中 ,。若记则有 注意到A,B,C均与 无关,由此容易算得样本的边际密度函数 应用贝叶斯公式即可得到后验分布 这说明在样本给定后,的后验分布为 N(B/A,1/A),即 后验均值即为其贝叶斯估计:它是样本均值 与先验均值 的加权平均。例子:正态分布例:某圆形产品内径X(单位:mm)服从正态分布N(,0
9、4),有先验分布N(2,0.22),现在测量X=1.8,n=5 MLE=1.8 bayes=1.93置信区间估计:方法:是随机变量,可求其后验分布步骤:1.积分求后验分布 2.根据后验分布求置信区间 6.4.4 共轭先验分布 若后验分布(x)与()属于同一个分布族,则称该分布族是 的共轭先验分布(族)。二项分布b(n,)中的成功概率 的共轭先验分布是贝塔分布Be(a,b);泊松分布P()中的均值 的共轭先验分布是伽玛分布Ga(,);在方差已知时,正态均值 的共轭先验分布是正态分布N(,2);在均值已知时,正态方差 2的共轭先验分布是倒伽玛分布IGa(,)。先验知识从哪儿来?我们可能在观测数据
10、之前就有一些主观观点或真正的先验知识。但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformative prior)。或者可以从数据估计先验。这被称为经验贝叶斯(empirical Bayes)。反对贝叶斯学派的观点不方便:后验区间不是真正的置信区间,估计通常都是有偏估计计算强度大:积分/仿真或近似很难处理不必要的复杂:即使没有先验信息也要有先验函数假设检验:贝叶斯假设检验对先验的选取很敏感综上所述在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同贝叶斯方法和频率推理是为了解决不同的问题结合先验知识和数据:贝叶斯方法构造长期稳定的性能(如置信区间):频率方法综上所述当参数空间为高维时,通常采用贝叶斯方法但当参数比数据还多时,没有统计方法能跨越自然的本质约束即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好You cannot get something for nothing.A little bit of data,will not help you to learn about a million dimensional,complex problem.