第六章样本及抽样分布11.ppt

上传人:本田雅阁 文档编号:3476748 上传时间:2019-08-31 格式:PPT 页数:48 大小:2.51MB
返回 下载 相关 举报
第六章样本及抽样分布11.ppt_第1页
第1页 / 共48页
第六章样本及抽样分布11.ppt_第2页
第2页 / 共48页
第六章样本及抽样分布11.ppt_第3页
第3页 / 共48页
第六章样本及抽样分布11.ppt_第4页
第4页 / 共48页
第六章样本及抽样分布11.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《第六章样本及抽样分布11.ppt》由会员分享,可在线阅读,更多相关《第六章样本及抽样分布11.ppt(48页珍藏版)》请在三一文库上搜索。

1、part II 数理统计,第六章 样本及抽样分布,数理统计是以概率论为理论基础,关于实验数据的收集、整理、分析、推断的一门数学学科,要求某种元件的平均使用寿命不得低于1000小时,现从这批元件中随机抽取25件,测得其寿命的平均值为950小时. 试问该批元件是否达到了要求?,什么叫数理统计,实际背景,某工厂生产了一大批产品,从中随机抽检了 件产品,发现有 件次品,如何估计整批产品的次品率 ?,例,例,这些问题都是统计推断问题,?,统计推断内容,参数估计,区间估计,参数假设检验,非参数假设检验,方差分析,回归分析,第六章 样本及抽样分布,1 随机样本,3 抽样分布及抽样分布定理,2 直方图与箱线图

2、,什么是实验数据,科学试验,或对某事物、现象进行观察获得的数据称为试验数据,处理实验数据的过程,收集、整理、分析、推断,数理统计围绕这四个过程来进行研究,如何收集和整理数据,本节将研究“收集”和“整理”数据的数学含义,问,?,特点:数据受随机因素的影响,问,?,问,?,研究对象的全体称为总体,这样定义的总体和个体是具体的对象,不符合数学研究的特点-抽象,考察某班级学生的英语课程学习成绩,则全体学生构成了一个总体,每个同学就是一个个体.,考察某工厂生产的某批灯泡的寿命,则该厂生产的该批灯泡构成了一个总体,每个灯泡就是一个个体.,数理统计的几个基本概念,总体,个体,总体中的一个具体对象称为个体,例

3、,例,这些数量指标是服从某种分布的r.v,以随机变量X代表总体的特征,总体 个体 特征,一批产品 每件产品 等级,一批灯泡 每个灯泡 寿命,一年的日平均气温 每天日平均气温 度数,数轴上某一线段 线段中每一点 坐标,一批彩票 每张彩票 号码,人们感兴趣的是总体的某一个或几个数量指标的分布 情况。每个个体所取的值不同,但它按一定规律分布。,考察某工厂生产的零件是否合格,记,考察某班级学生的英语课程学习成绩 因为每个学生的成绩都在全班平均成绩 的附近波动,所以总体可视为,例,考察某工厂生产的某批灯泡的寿命 因为每个灯泡的寿命都在该批灯泡平均寿命 的附近波动,所以总体可视为,例,例,如何收集数据,这

4、一过程称为抽样,问,从研究对象中任取 个“个体”,观察它们的数量指标,抽样的特点,每次取出的样品与总体有相同的分布,样本的特点,?,称为容量为 的样本.,是相互独立,与总体同分布的r.v,观察前:,观察后:,样本值 为 个具体的观察数据,独立性:,要求各次取样的结果互不影响,代表性:,在相同条件下对总体 进行 次重复、独立观察,某厂生产了一大批灯泡,现从中随机抽取5只进行检测,测得其寿命(小时)分别为,总体为灯泡的寿命,样本容量为5,样本为,分析,例,样本观察值为,样本二重性,总体为工件长度,样本容量为6,样本为,分析,例,样本二重性,对长度为 的工件进行了6次测量,测量值为,?,?,样本观察

5、值为,总体,分析,(零件合格或不合格),二重性,总体分布律为,考察某工厂生产的零件是否合格,从该厂生产的一批产品中随机抽检了100个,若合格则记为0,若不合格则记为1,100个产品的检查结果为,其中 为零件的次品率。,例,样本观察值,设 为来自总体 的样本,则样本的联合分布函数为,设 为来自总体 的样本,则样本的联合概率函数为,例,则样本的联合密度为,样本的联合分布,样本的联合概率函数,是一堆“杂乱无章”的数据,设 是来自总体 的样本,对样本的一些认识,是对总体进行推断的依据,包含了有关总体的“信息”,在观察前 是一组独立同分布r.v,在观察后 是一组具体的数据,样本的联合分布为,第二节 直方

6、图和箱线图,直方图,箱线图,为了研究总体分布的性质,人们通过实验得到许多观测值,一般来说这些数据实杂乱无章的,为了利用它们进行统计分析,将这些数据加以整理,还借助于表格或图形对它们加以描述。,一 直方图,例1:,下面列出了84个伊特拉斯坎(Etruscan)人男子的,头颅的最大宽度(mm),现在来画这些数据的“频率直 方图”,解,首先整理数据,,数据的最大值、最小值分别为126、158,,即所有数据落在区间126,158上,现取区间 124.5,159.5,它能覆盖区间126,158,将区间124.5,159.5等分为7个小区间,,小区间的长度记为,=(159.5-124.5)/7=5,称为组

7、距,小区间的端点称为组限, 数出落在每个小区间内的数据的频数fi, 出频率fi/n,如下表:,现在自左至右依次在各个小区间上作以,为高的小,矩形,,这种图行叫频率直方图,二 箱线图,求P分位数法则,箱线图,数据集的箱线图是由箱子和直线组成的图形,它是,基于以下5个数的图形概括:,连接两个四分(位)数画出箱子,并画出中位数再将两个极值点与箱子相连接,简单箱线图,45,55,65,75,85,95,105,箱线图也可以沿垂直数轴来作,120,120,113.5,150,102,分布的形状与箱线图,不同分布的箱线图,箱线图适合比较两个或两个以上数据集的性质,【例】 从某大学经济管理专业二年级学生中随

8、机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图 (例题分析),8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图 (例题分析),三 小结,直线图,箱线图,第三节 抽样分布,从总体 抽取样本,怎样集中、提炼出有用的信息,统计推断的基础:,收集数据,“杂乱无章”的数据,

9、包含了各种有用的“信息”,问,?,下面的量能较好地反映全班整体学习情况,某班级高等数学课程考试成绩单列出 个学生成绩分别为 如何评价全班整体学习情况?,例,分析,通过构造样本函数,进行统计推断,数据的加工整理:,统计量,“好”的统计量能够有效地提炼出数据中包含的有用信息,统计量的二重性,试验前 是随机变量,试验后 是具体的数值,例,中 均未知,判断下列哪些是统计量:,问,为什么要求统计量不含任何未知参数,?,样本均值,样本方差,样本标准差,样本k阶矩,样本k阶中心矩,极小值,极大值,常用的统计量,与均值和方差有什么不同?,为什么不是 (下章说明),独立,与总体同分布,独立,与 同分布,由辛钦大

10、数定律知,样本矩的特性,都存在,其中 为连续函数,设总体 的均值和方差,样本均值与样本方差的数字特征,是来自总体 的样本,则,都存在.,证,说明了什么?,样本均值与样本方差的实际意义,反映了实验数据 与数据中心的偏离程度,反映了全体实验数据 的离散程度,思考,样本,统计量,抽样分布,包含了各种有用信息,集中、提炼数据中包含的有用信息,它们是随机变量,必须确定其分布,称为抽样分布,来自标准正态总体的抽样分布,主要讨论:,来自一般正态总体的抽样分布,分布 分布 分布,五个抽样分布定理,随着自由度的增加曲线重心向右下方移动,称 服从自由度为 的 分布,记为,推广:,则,于是,理解为可独立变化的r.v

11、个数,证,取 个独立同分布 的,随着自由度的增加曲线越来越趋近,称 服从自由度为 的 分布,记为,易知:,?,?,利用伽马函数的斯特林公式,即,故当 较大时,可认为,英国统计学家兼化学家戈塞特 (Gosset W S 1876-1937 )于1908年用笔名Student 发表了关于 t 分布的论文,这是一篇在统计学发展史上划时代的文章,它创立了小样本代替大样本的方法,开创了现代统计学的新纪元. Gosset, Student 的最后一个字母都是t ,故取名为“t 分布”,又称为“学生氏分布”.,称 服从自由度为 的 分布,记为,分布是为了纪念著名统计学家,费歇耳(R.A.Fisher 189

12、0-1962)而命名,最重要的总体:,分析:,对 的推断是通过构造统计量实现的,如何构造“好”的统计量,服从什么分布?,统计推断中最重要的结论:,五个抽样分布定理,仍服从正态分布,且,定理一,证,本,则,独立同分布,由正态分布的性质知,线性组合,定理二,分别为样本均值和样本方差,则有,相互独立,分析,?,?,?,(证略),定理三,分别为样本均值和样本方差,则有,证,由定理一、定理二有,且 与 独立,,由 分布的定义有,结果分析,即“平均”说来 与 的差别不大,故可用 “代替”,两个未知参数,一个未知参数,定理四,证,由定理二,有,因两样本独立,故 独立,定理五,证,其中,且 相互独立,又,由 的独立性及 分布的可加性有,由两样本的独立性及 分布的定义有,面积为,则称 为分布密度 的上 分位点,上 分位点,的上 分位点记为,的上 分位点记为,查标准正态分布表,可求得,例,则称 为分布密度 的上 分位点,上 分位点,的上 分位点记为,查 t 分布表,可求得,例,则称 为分布密度 的上 分位点,上 分位点,的上 分位点记为,例,查 分布表,可求得,Fisher曾证明:当 n 充分大时有,则称 为分布密度 的上 分位点,上 分位点,的上 分位点记为,例,查 分布表,可求得,若 则 故,“三反“公式,则称 为分布密度 的上 分位点,上 分位点,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1