6.概率分布及总体平均数的推断.ppt

资源描述

《6.概率分布及总体平均数的推断.ppt》由会员分享，可在线阅读，更多相关《6.概率分布及总体平均数的推断.ppt（61页珍藏版）》请在三一文库上搜索。

1、理解抽样分布的意义了解抽样分布的形成过程平均数抽样分布的定理样本平均数与总体平均数离差统计量的形态总体平均数的估计假设检验的基本原理总体平均数的显著性检验,第六章抽样分布及总体平均数的推断,一、分布的类型,总体分布：总体内个体数值的频数分布。样本分布：样本内个体数值的频数分布。抽样分布：某一样本统计量的概率分布。,频率分布与概率分布的区别,经验分布：频率分布是经资料整理而来;频率分布随样本不同而不同;频率分布有对应的频数分布。,理论分布：概率分布是先验的；概率分布是唯一的；概率分布无频率分布所对应的频数分布。,样本统计量的概率分布，是一种理论分布在重复选取容量为n的样本

2、时，由该统计量的所有可能取值形成的相对频数分布。结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据,二、抽样分布(sampling distribution),抽样分布的形成过程,1. 概念在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,三、样本均值的抽样分布,例题分析,例：设一个总体，含有4个元素(个体) ，即总体单位数N=4。4 个个体分别为x1=1，x2=2，x3=3，x4=4 。总体的均值、方差及分布如下,均值和方差, 现从总体中抽取n2的简单随机样本

3、，在重复抽样条件下，共有42=16个样本。所有样本的结果为, 计算出各样本的均值，如下表。并给出样本均值的抽样分布, = 2.5 2 =1.25,总体分布,2. 中心极限定理,当总体服从正态分布N(,2)时，来自该总体的所有容量为n的样本的均值x也服从正态分布，x 的数学期望为，方差为2/n。即xN(,2/n),中心极限定理：设从均值为，方差为 2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,3. 抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,正态分布,正态分布,非正态分布,样本均值的数学期望样本均值的

4、方差重复抽样不重复抽样,4. 样本均值抽样分布的数学期望与方差,比较及结论：1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n,例题,假设有一所大学声称它近期的毕业生所挣的平均年收入为30000元。我们有理由对这个声称的真实性提出质疑，从而决定通过一个最近两年毕业的校友的随机样本来检验它。在这个过程中，我们得到的样本均值只有28200元。我们现在要问：如果实际的总体均值真的为30000元，我们有多大的可能性获得一个均值小于或等于28200元的样本呢？这所大学的说法是真的吗？（假设抽样分布的标准差为800元）,5. 标准误 (standard error

5、),样本统计量的抽样分布的标准差，称为统计量的标准误，也称为标准误差，也称抽样标准差。标准误衡量的是统计量的离散程度，它测度了用样本统计量估计总体参数的精确程度。以样本均值的抽样分布为例，在重复抽样条件下，样本均值的标准误为 4. 标准差的英文为：standard deviation,6. 总体标准差的无偏估计量,总体标准差在一般情况下是未知的，它需要用样本标准差来估计。,7. 平均数标准误的估计值,当计算标准误时涉及的总体参数未知时，用估计量S来代替，于是在重复抽样条件下，样本平均数标准误的估计值为,练习,1、标准化的智商测验的总体均值为100，总体标准差为15.如果抽取一个规模为1

6、0的样本，求样本均值的标准误。 2、假设一个呈正态分布的标准化成就测验的总体标准差为7.2。如果我们抽取一个16个成绩的样本，样本均值的标准误是多少？,练习,3、下面的样本是30名被调查者在一个七点式量表的得分，用来测量对一个极端组织是否应该被允许举行游行（1=强烈反对，7=强烈赞成）的态度，请估计其均值的标准误？ 3 5 1 4 3 3 6 6 2 3 3 1 1 2 2 1 5 2 1 3 4 3 1 4 5 2 2 3 3 4,练习,3、下面的样本是30名被调查者在一个七点式量表的得分，用来测量对一个极端组织是否应该被允许举行游行（1=强烈反对，7=强烈赞成）的态度，请估计其均值的

7、标准误？ 3 5 1 4 3 3 6 6 2 3 3 1 1 2 2 1 5 2 1 3 4 3 1 4 5 2 2 3 3 4,8. 样本平均数与总体平均数离差统计量的形态,当总体标准差已知时，一切可能样本平均数与总体平均数的离差统计量呈标准正态分布。,8. 样本平均数与总体平均数离差统计量的形态,当总体标准差未知时，一切可能样本平均数与总体平均数的离差统计量用t表示，呈t分布。,1 定义：由小样本统计量形成的概率分布。 2 t分布的特点 t分布是对称分布。平均数位于曲线中央，在这一点上有一个单峰，从中央向两侧逐渐下降，尾部无限延长，但不与基线相交。分布曲线的形状易变，曲线不是一条而是一

8、族，其曲线形状随着样本容量即随自由度的大小而有规律地变动。,t分布,t分布,当n时，分布曲线以标准正态曲线为极限，即呈正态分布。通常把自由度较大的t分布当作正态分布来处理。当n逐渐减少时，分布的离散程度逐渐增大，曲线逐渐与标准正态分离；其峰顶逐渐下降，尾部抬高。 t分布的值及对应的概率值（p）是根据自由度的大小由理论模型推导出来的，构成t分布临界值。 t分布的自由度df=n1。,标准正态分布与t分布图,图标准正态分布与t分布,t分布表中的概率,图 df=20时t分布的双侧概率,四、参数估计,参数估计在统计方法中的地位,定义当总体参数不清楚时，用一个特定值（一般常用样本统计量）进行估计，这类

9、问题就是点估计。统计量为数轴上某一点值，所以称为点估计。例如：用样本均值直接作为总体均值的估计例如：用两个样本均值之差直接作为总体均值之差的估计,（一）点估计,（1）无偏性。指如果用多个样本的统计量作为总体参数的估计值时，有的偏大，有的偏小，而偏差的平均数为0，这时，这个统计量就是无偏估计量。如果用某个统计量估计总体的误差平均数大于0或小于0，这个统计量就是有偏统计量。总体参数的良好估计值，应具备无偏性。（2）一致性。所谓一致性是指当样本容量无限增大时，估计值应能越来越接近它所估计的总体参数。（3）有效性。是指当总体参数的无偏估计不止一个统计量时，无偏估计变异性小者有效性高，变异大者有

10、效性低。,标准,缺点：没有给出估计值接近总体参数程度的信息。,（二）区间估计,区间估计是用数轴上的一段距离表示未知参数可能落入的范围，它虽不具体指出总体参数等于什么，但能指出总体的未知参数落入某一区间的概率有多大。,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。比如，某班级平均分数在7585之间，置信水平是.95,由样本统计量所构造的总体参数的估计区间称为置信区间；统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间；用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值；我们只能是希

11、望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个。,相关概念：置信区间,置信区间 (95%的置信区间),重复构造出的20个置信区间,点估计值,统计分析中一般规定：正确估计的概率，也即置信水平为.95或.99，那么显著性水平则为.05或.01，这是依据.05或.01属于小概率事件，而小概率事件在一次抽样中是不可能出现的原理规定的。置信度：又称显著性水平，意义阶段，信任系数等，是指估计总体参数落在某一区间时，可能犯错误的概率，用符号表示。（0.05Z*、0.01 Z* 、0.001 Z* ）置信区间：或称置信间距，是指在某一置信度时，总体参数

12、所在的区域距离或区域长度。,相关概念：置信水平、置信度、置信区间,区间估计的具体步骤,确定样本平均数的分布形态Z或T；计算样本分布的标准误；查表确定置信度；计算一定置信度前提下的置信区间,假定条件总体服从正态分布如果不是正态分布，可由正态分布来近似 (n30) 使用正态分布统计量 z,总体均值在1- 置信水平下的置信区间为,（三）总体均值的区间估计,1. 总体方差已知条件下的总体平均数的区间估计,练习：有一个49名学生的班级，某学科历年考试成绩的=5，又知今年某次考试成绩是85分，试推论该班某学科学习的真实成绩分数。,2. 总体方差未知条件下总体平均数的区间估计,假定条件总体服

13、从正态分布,且方差() 未知小样本 (n 30) 使用 t 分布统计量,总体均值在1-置信水平下的置信区间为,总体均值的区间估计(例题分析),例：已知某种灯泡的寿命服从正态分布，现从一批灯泡中随机抽取16只，测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间。,解：已知N(，2)，n=16, 1- = 95%，t/2=2.131 根据样本数据计算得：，总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时,2. 总体方差未知条件下总体平均数的区间估计,假定条件总体服从正态分布,且方差() 未知大样本 (n 30) 使

14、用正态分布统计量,总体均值在1-置信水平下的置信区间为,【例】一家保险公司收集到由36投保个人组成的随机样本，得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,解：已知n=36, 1- = 90%，z/2=1.645。根据样本数据计算得：总体均值在1- 置信水平下的置信区间为,投保人平均年龄的置信区间为37.37岁41.63岁,总体分布为非正态时，若n30，不能用概率对其样本分布进行推论。,1、某班49人期末考试成绩为85分，标准差为6，假设此项考试能反映学生的学习水平，试推论该班学生学习的真实成绩分数。（=0.05） 2、一位研究吸烟的人员想知道吸烟者第一次吸烟的

15、平均年龄。通过对25名吸烟者的随机样本的调查，其得出的样本均值为16.8岁，标准差为1.5岁。请计算开始吸烟的平均年龄的95%的置信区间。,练习,练习,3、一位教育研究人员想要估计一所大学里的学生在入学第一年里所交朋友的平均数量。通过随机调查50名完成了第一年学业的学生，得到样本均值为3，标准差为1.在95%的置信水平下估计这所大学学生在第一年交朋友数的均值。,作业,1、一所大学的本科教育主管想要估计教师所需要的平均数本书。他随机抽取了26门课程的任课教师，发现样本均值为2.8本，标准差为0.4。通过95%的置信区间来估计大学教师所指定的平均数本书。 2、下面的样本是30名被调查者在一个七点式

16、量表的得分，用来测量对一个极端组织是否应该被允许举行游行（1=强烈反对，7=强烈赞成）的态度。请分别计算95%和99%的置信区间？ 3 5 1 4 3 3 6 6 2 3 3 1 1 2 2 1 5 2 1 3 4 3 1 4 5 2 2 3 3 4,总体比率的区间估计,比率的抽样分布在实际调研中，我们经常会遇到一系列的计数变量，这些变量的比较往往是就其发生频率及其所占某一总体的比率的比较。而且实际调研中，为考察某一类事件的发生频率，还可以将其所在的总体划分为事件A和事件非A两大类，这样就可以使用二分变量的比率来对之进行研究了。,二项分布的标准差为：,例：从男女各占1/2的学校中随机抽10名

17、学生，从理论上说，平均应抽到男生5人，标准差为1.58人。,比率的抽样分布的标准差为：,假设在一个100名大学生的随机样本中有45%报告说他们赞同各种毒品的合法化。则标准误为,比率的抽样分布形态,同二项分布当n趋近于无限大时，二项分布接近于正态分布；当p=q，不管n多大，二项分布呈对称形；当pq，且n相当小时，图形呈偏态，pq与pq偏斜方向相反；当pq且np5，或者pq且nq5时，二项分布近似正态分布。,总体比率的区间估计,例：假设本地的一家调查组织通过电话联系了400名本地的登记选民，询问他们倾向于投票给候选人A还是候选人B。他发现有60%倾向于候选人A。在95%的置信区间下，确定对

18、候选人A的倾向。,练习,1、一名政治调查专家调查了一个500名登记选民的随机样本，询问他们是倾向于投票给候选人A还是候选人B。他发现有54%倾向于候选人A。在95%的置信区间下，确定这位专家预测候选人A将会获胜是否公正。 2、为了估计一所大学里支持在校园里全面禁酒的学生比例，因为研究人员调查了大学里的一个50名学生的随机样本。他发现样本的36%支持禁酒。在这种情况下，计算总体比例95%的置信区间。,练习,3、一家调查机构在纽约通过电话对400名随机选取的成年人进行了调查，询问他们关于对出租车司机进行随机毒品测试的态度。结果发现有38%的人赞同这个制度。计算总体比率的99%置信区间。 4、一所学校想调查家长对于一项取消学生课外体育活动以削减成本的建议的态度。学校委员会采取电话调查的方式，在120名被询问的家长中，74名支持这项取消体育活动的计划。计算总体比例的95%和99%置信区间。,作业,一所学校想调查家长对于一项取消学生课外体育活动以削减成本的建议的态度。学校委员会采取电话调查的方式，在120名被询问的家长中，74名支持这项取消体育活动的计划。计算总体比例的95%和99%置信区间。,附：希腊字母表,

展开阅读全文