样本描述性统计与假设检验.ppt

上传人:rrsccc 文档编号:8788551 上传时间:2021-01-15 格式:PPT 页数:57 大小:1.13MB
返回 下载 相关 举报
样本描述性统计与假设检验.ppt_第1页
第1页 / 共57页
样本描述性统计与假设检验.ppt_第2页
第2页 / 共57页
样本描述性统计与假设检验.ppt_第3页
第3页 / 共57页
样本描述性统计与假设检验.ppt_第4页
第4页 / 共57页
样本描述性统计与假设检验.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《样本描述性统计与假设检验.ppt》由会员分享,可在线阅读,更多相关《样本描述性统计与假设检验.ppt(57页珍藏版)》请在三一文库上搜索。

1、第二讲 样本描述性统计与假设检验,主要内容,基本数学模型 频数分析过程 数据描述过程 数据探察过程 列联表分析过程,基本数学模型-集中趋势统计量,算术平均数 样本数据的总和除以样本个数 是样本数据集中趋势中最常用的统计量 公式 在不分组的情况下f都为1,基本数学模型-集中趋势统计量,中位数(Median) 先将样本按升序或降序排列 样本数为奇,中间的数,样本为偶,取中间两个的平均 例如:下列两组样本的中位数为_? 11 2 4 9 5 23 20 12 54 22 36,基本数学模型-集中趋势统计量,众数(Mode) 样本数据出现频数最多的那个数 不受极值影响,可能有多个 例如,下面一组样本的

2、众数为_? 1 2 3 2 1 9 4 6 3 2 1 8,基本数学模型-集中趋势统计量,调整平均数(Trimmed Mean) 将样本数据排序后,按照一定的比率去掉两端最大值,最小值,对剩下的数据求平均 Explore功能中的调整平均数默认两端各去掉2.5%后,对剩下的95%的数据求平均,基本数学模型-集中趋势统计量,几何平均数(Geometric Mean) 加权几何平均数 简单几何平均数 f=1,基本数学模型-集中趋势统计量,调和平均数(Harmonic) 是n个数的倒数平均数的倒数 适用于平均价格、平均速度方面的计算和分析 公式,基本数学模型-集中趋势统计量,四分位数(Quartile

3、s) 25分位数:最低数和中位数之间的中位数 75分位数:最高数和中位数之间的中位数 其他分位数,基本数学模型-离散趋势统计量,极差(Range) 最大值-最小值 稳定性差 平均差(Average Difference) 各样本数据与均值间差异的绝对值的均值 方差(Variance) 标准差(Standard Deviation, Std Dev) 方差的算术方根,基本数学模型-离散趋势统计量,标准误(Standard Error, S.D.Mean) 是样本平均数的标准差 由于样本抽取的随机性,每次抽取的样本不一,样本均值不一。考虑所有被抽取的样本均值,他们的标准差就是标准误。,基本数学模型

4、,偏度(Skewness) 反映数据分布不对称的一个数字特征 当数据为正态分布时,偏度为零,基本数学模型,峰度(Kurtosis) 是以正态分布为标准描述该分布的密度的形状是陡峭还是平坦的一个数字特征。当数据为正态分布时峰度为零,频数分析过程,功能菜单:Analyze-Descriptive Statistics-Frequencies 对话框:,Statistics对话框,分位数,集中趋势统计量,偏度和峰度,离散趋势统计量,Chart按钮,选择图形,定义是按照频数还是按百分比作图,应用实例,例1 对统计出来的红球和值,进行绘制频数表、直方图;计算最大最小值,均数、标准差、中位数M、p2.5和

5、p97.5 ,并考察偏度和峰度。,数据描述过程,是否保存变量的标准化数据,Option按钮,选择显示的次序,选择统计量,数据探察过程,功能菜单 Explore Explore过程主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。 在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案,数据探察过程,对话框,因变量,分组变量,样本标签,Statistics按钮,描述性统计,反映集中趋势的稳健估计量,样本异常嫌疑值,最大最小5个,四分数,Statistics按钮,Descriptives复选框:输出均

6、数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。 M-estimators复选框:作中心趋势的最大似然化的稳健估计量,输出四个不同权重的最大似然确定数。 Outliers复选框:输出五个最大值与五个最小值。 Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数,Plots按钮,设置多个变量时箱型图的形式,Option按钮,剔除缺失值 成对剔除缺失值 单独分组,用频数表标出,实例应用,例2 以例1数据为例,做Explore过程统计,画出茎叶图

7、,和箱形图。,假设检验-平均数比较与T检验,主要内容,假设检验一般理论 分组平均数比较 单一样本T检验 配对样本T检验,问题的提出,例3 某工厂用包装机包装奶粉,额定标准为每袋净重0.5kg.设包装机称得奶粉重量X服从正态分布,据经验知其标准差=0.015(kg).为检验包装机的工作是否正常,随机抽取包装的奶粉9袋,称得重量为 0.499 0.515 0.508 0.512 0.498 0.515 0.516 0.513 0.524 问该包装机工作是否正常?,假设检验一般理论,基本任务:根据样本信息对未知总体或其数字特征的假设作出合理的判断 基本原理:小概率事件在一次试验中几乎不可能发生 H0

8、 原假设 H1 备择假设(对立假设),对于例1 可提出如下统计假设: H0 : = 0 =0.5 H1: 0 =0.5,假设检验一般理论,对H0 进行检验: (1)寻找检验统计量 (2)对给定小概率,寻找拒绝域0 P(x1,x2,xn) 0 | H0 为真时= 接受域1 : 10= (样本空间) 当样本观测值: (x1,x2,xn) 0 时,拒绝H0 (x1,x2,xn) 1 时,接受H1,假设检验一般理论,什么是显著性水平 是一个概率值 原假设为真时,拒绝原假设的概率 被称为抽样分布的拒绝域 表示为(alpha) 常用的值有0.01, 0.05, 0.10 由研究者事先确定,假设检验一般理论

9、,什么是P值? 是一个概率值 如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 左侧检验时,P-值为曲线下方小于等于检验统计量部分的面积 右侧检验时,P-值为曲线下方大于等于检验统计量部分的面积 被称为观察到的(或实测的)显著性水平,双侧检验的P值,左侧检验的P值,右侧检验的P值,假设检验一般理论,如何利用P值进行决策判断? 单侧检验 若p-值 ,不能拒绝 H0 若p-值 , 拒绝 H0 双侧检验 若p-值 /2, 不能拒绝 H0 若p-值 /2, 拒绝 H0,假设检验一般理论,检验分类 样本平均数与总体平均数的比较检验(单个样本) 两独立样本平均数的比较 两个配对样本平均数的比较

10、检验 多个平均数的样本检验 成数假设检验,方差或标准差假设检验 分布检验:正态分布检验、均匀分布检验 非参数检验:2检验法、F检验法等。,分组平均数比较,问题描述 某医师测得40人的血红蛋白值(g%),试比较男性和女性的血红蛋白值是否有差异? (数据见血红蛋白值.sav) 分组平均数比较是为了比较同一个总体抽样中不同类别的均数的差异性,分组平均数比较,菜单 Analyze-Compare Means-Means 点击弹出如下对话框 主要功能 分组计算均值 对均值进行差异比较,分组平均数比较,对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值,检验线性相关性,实际上就是上面的单因

11、素方差分析,分组平均数比较-结果分析,F:统计量的值 Sig. 观测显著性水平 即P值,单一样本T检验,用于检验样本平均与总体平均数的差异 统计量:T统计量 其中S是修正的样本标准差 主要检验某一个均值是否和某一固定值相符合。,单一样本T检验,例4 前面给出的血红蛋白值的均值是否等于11,12,13,单一样本T检验,单一样本T检验,结果分析,t统计量值,自由度,P值,置信区间的上下限,练习1,有一种新型农药防治柑桔红蜘蛛,进行了9个小组的实验,其防治效果为:95%,92%,88%,92%,93%,95%,89%,98%,92% 与原用农药的防治效果90%比较,分析其效果是否高于原用农药。,练习

12、2,在有小麦丛矮病的麦田里,调查了13株病株和11株健株的植株高度,分析健株高度是否高于病株?其调查数据如下: 健株 26.0 32.4 37.3 37.3 43.2 47.3 51.8 55.8 57.8 64.0 65.3病株 16.7 19.8 19.8 23.3 23.4 25.0 36.0 37.3 41.4 41.7 45.7 48.2 57.8 该数据保存在“丛矮病的麦田.SAV”文件中,配对样本T检验,配对样本 是相对独立样本而言的,指一个样本在不同时间做了两次试验,或者有两个类似的记录,从而比较其差异。 例如:下列哪个属于配对样本? 一班和二班的数学分析成绩 一班的期中和期末

13、成绩,配对样本T检验,问题陈述 例1 某制鞋厂为比较用来做鞋后跟的两种材料的质量,随机选取了15名男子,让他们每人穿一双新鞋,每双鞋中有一只是用材料A作后跟的,另外一只是用材料B作后跟的,其厚度均为10cm,一个月以后再次测量其厚度,数据如下:,配对样本T检验,请根据以上数据判断那种材料耐磨性更好些?(显著性水平为0.05),配对样本T检验,数学模型 T统计量定义如下:,T统计量满足的t分布自由度为:对子数-1,配对样本T检验,统计分析 Paired samples T test是根据配对样本均值 之间的差异进行检验的。 基本假设:,配对样本T检验,功能菜单 Analyze-Compare M

14、eans- Paired-Samples T Test 对话框,显示配对的变量,显示配对后的变量组,可以同时做多对,配对样本T检验,结果分析 因为P0.05,拒绝原假设,认为两种材料的耐磨性不一样。A的均值为7.7933,B的均值为7.1733,可以认为A材料比B材料耐磨。,注意,利用服从t分布的统计量作为检验统计量的检验方法称为t统计量 前提是假定总体服从正态分布的,练习3,某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别? 数据见“大白鼠.sav”,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1