第二部分统计推断.ppt_三一文库31doc.com

资源描述

《第二部分统计推断.ppt》由会员分享，可在线阅读，更多相关《第二部分统计推断.ppt（26页珍藏版）》请在三一文库上搜索。

1、1,第二部分：统计推断,Chp6：统计推断概述 Chp7：非参数推断 Chp8：Bootstrap Chp9：参数推断 Chp10：假设检验 Chp11：贝叶斯推断 Chp12：统计决策理论,2,Chp6：统计推断,统计推断/学习利用数据来推断产生数据的分布的过程统计推断的基本问题：我们观测到数据，要推断（估计或学习）F 或 F 的某些性质（如均值和方差）。,数据产生过程,观测到的数据,概率,统计推断,3,参数模型,参数模型可用有限个参数参数化，如也可记为一般形式当为向量，而我们只对其中一部分参数感兴趣，则其余参数称为冗余参量（nuisance parameters ）,4,

2、非参数模型,非参数模型粗略地说，非参数模型不能用有限个参数参数化如如,5,例：参数推断,6.1例（一维参数估计）设是独立的Bernoulli(p)观测，问题在于如何估计参数p。 6.2例（二维参数估计）假设且PDF ，如则有两个参数。目标是从数据中获得参数。如果仅对感兴趣，那么是感兴趣参数，而是冗余参量。,6,例：非参数推断,6.3例（CDF的非参数估计）设是来自CDF F 的独立观测。问题是在假设的条件下估计F。,7,例：非参数推断,6.4例（非参数密度估计）设是CDF F 的独立观测，令是其PDF。假设我们要估计f 。在只假设的条件下，不可能估计出 f。我们

3、需要假设f的平滑性。例如，可假设，其中是满足下述条件的所有概率密度函数的集合类称为Sobolev 空间；是 “波动不大” 的函数的集合。,8,例：非参数推断,6.5例（函数的非参数估计）：令，我们要估计，仅假设存在。均值可被认为是F的函数，可写成通常，任意F 的函数可认为统计函数/统计泛函。方差：中值：,9,例：监督学习,假设有成对的观测数据，如为第i个人的血压，为其寿命 X：特征/独立变量/预测子/回归子 Y：输出/依赖变量/响应变量：回归函数参数回归模型：，其中为有限维如线性回归：为直线集合，非参数回归模型：，其中为无限维如核回归：,10

4、,例：监督学习（续）,预测：给定新的X的值，估计Y的值分类：当Y为离散值时的预测回归/曲线拟合/曲线估计：估计函数回归模型：,11,统计推断方法,频率推断贝叶斯推断,12,注意,在参数模型中，若为参数模型，我们记下标表示概率或期望是与有关，而不是对求平均,13,点估计,点估计是指对某个感兴趣的量的真值做一个最佳估计，这个估计称为或，因为它取决于数据，所以是一个随机变量。但为固定值，虽然未知如果 X1, ,Xn 是从某个分布F的IID数据点，参数的点估计为X1, ,Xn 的函数：,14,抽样分布（Sampling Distribution）,的分布称为抽样分布的标准

5、差 (standard deviation)称为标准误差 (standard error) 标准误差的估计值称为,15,估计量的评价标准,一个好的估计有什么性质? 无偏性估计的偏差（bias）为若，则该估计是无偏估计。一致性若，则该点估计是一致的。有效性无偏估计中，方差较小的一个更有效（收敛速度更快）,对分布求期望，而不是对平均,16,偏差方差分解,点估计的性能有时通过均方误差(MSE, mean squared error)来评价： MSE可分解为为了使估计的MSE小，估计的偏差和方差都要小对无偏估计，bias=0，所以,估计的偏差/正确性,估计的变化程度/精度,无偏估

6、计的MSE不一定最小，还需考虑估计的方差,17,偏差方差分解,18,偏差方差分解,若时，且，则是一致的，即证明：,所以,所以,所以,（qm收敛定义）,19,例：Bernoulli分布中的参数估计,令为p无偏估计标准误差为所以，为一致估计估计的标准误差为,20,置信区间,参数的1-置信区间为区间，其中和是数据的函数，使得区间(a,b)以1-的概率覆盖 1-：置信区间的覆盖度(coverage) 置信区间表示了我们对未知参数的不确定程度置信区间宽，表示若要对参数有个比较确定的解，需要更多样本数据,21,渐近正态性,如果满足则该估计是渐近正态的（asymptotic

7、ally normal）。如果一个估计是渐近正态的，可以比较方便地得到其置信区间。,22,基于正态分布的置信区间,假设，令，即且其中，令则如对95%的置信区间，则95%的置信区间约为,23,例：二项分布的置信区间,令其中则根据Hoeffding不等式对每个p，所以为1-置信区间。根据CLT，则1-置信区间为,基于正态的区间比基于Hoeffding不等式的区间小，但CLT只是近似（在大样本时）,24,假设检验,假设检验：从缺省理论-零假设/原假设（null hypothesis）开始问题：数据是否提供了足够多的证据以拒绝该理论是：拒绝原假设否：接受原假设,25,例：检验硬币是否公正,假设表示n次独立的抛硬币试验，我们想知道该硬币是否公正原假设：硬币是公正的备择假设：硬币是不公正的记为：当较大时，拒绝问题：T应为多大？（拒绝域/接受域/显著水平）一般不能轻易拒绝,26,总结,统计推断的基本概念模型、模型估计、估计的评价一个好的估计：偏差小方差/标准误差小 MSE小一致性鲁棒性（当样本数据有噪声时，仍能得到一个好的估计） .,重点掌握偏差、标准误差和MSE的计算,

展开阅读全文