第三总体均数的估计与假设检验.ppt

上传人:本田雅阁 文档编号:3319724 上传时间:2019-08-12 格式:PPT 页数:98 大小:1.84MB
返回 下载 相关 举报
第三总体均数的估计与假设检验.ppt_第1页
第1页 / 共98页
第三总体均数的估计与假设检验.ppt_第2页
第2页 / 共98页
第三总体均数的估计与假设检验.ppt_第3页
第3页 / 共98页
第三总体均数的估计与假设检验.ppt_第4页
第4页 / 共98页
第三总体均数的估计与假设检验.ppt_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《第三总体均数的估计与假设检验.ppt》由会员分享,可在线阅读,更多相关《第三总体均数的估计与假设检验.ppt(98页珍藏版)》请在三一文库上搜索。

1、1,第三章,总体均数的估计 与假设检验,2,统计推断的目的:,用样本的信息去推论总体。 医学研究中大多数是无限总体, 即使是有限总体,但也经常受各种条件的限制,不可能直接获得总体的信息。,3,抽样误差(sampling error):因各样本包含的个体不同,所得的各个样本统计量(如均数)往往不相等,这种由于个体差异和抽样造成的样本统计量与总体参数的差异,称为抽样误差。 产生抽样误差的原因:个体差异 在抽样研究中,抽样误差是无法避免的; 抽样误差的分布有一定的规律性。,第一节 均数的抽样误差与标准误,4,例:,某地14岁健康女生身高的总体均数为155.4cm,标准差为5.30。若从该地14岁健康

2、女生中随机抽取样本含量n均为10人的样本共100次,计算出每次样本的均数为153.8cm,155.5cm,5,样本均数的抽样分布特点: 各样本均数未必等于总体均数 各样本均数之间存在差异 样本均数的分布有一定规律性,可计算100个样本均数,得频数分布如下:,6,计算出这100个样本均数的均数为155.52cm,样本均数的标准差为1.64cm,7,标准误(standard error),样本均数的标准差,也称均数的标准误,是反映均数抽样误差大小的指标。均数标准误越小,说明样本均数与总体均数的差异程度越小,用该样本均数估计总体均数越可靠。,8,标准误的计算,当标准差一定时,标准误与样本含量n的平方

3、根呈反比,因此,可以通过适当增加样本含量来减少标准误,从而降低抽样误差。,9,标准误的计算,例 某地随机抽查14岁健康女生10人,得身高均数154.8cm,标准差5.40cm,计算标准误。,总体标准差已知,总体标准差未知:,10,标准误的用途:,衡量样本均数的可靠性 估计总体均数的置信区间 用于均数的假设检验,11,数理统计推理和中心极限定理,从正态总体中,随机抽取例数为n的样本,样本均数服从正态分布; 从偏态总体随机抽样,当n足够大时,样本均数服也近似服从正态分布分布; 从均数为,标准差为的正态或偏态总体,抽取例数为n的样本,样本均数的总体均数= ,标准差 。,12,第二节 t 分布,t 分

4、 布的概念 t分布的图形、性质、 t 界 值 表 查 表,13,一、t分布的概念,14,t 分 布 的 概 念 续,当总体标准差未知时,可作正态变量 的t转换: t分布与标准正态分布的联系:t分布只有1个参数:自由度(=n-1)。 逐渐增大时,t分布逐渐逼近标准正态分布。当=时,t分布就完全成为标准正态分布了。,15,二 t分布的图形和特征,t分布是一簇曲线,自由度决定曲线的形状。当,t分布正态分布 以0为中心,左右对称的单峰曲线,16,t值表的使用(P804),横标目:自由度(1,2,3,) 纵标目:概率P(双侧:0.05, 0. 01, 0.001 ) (单侧:0.025,0.005, 0

5、.0005 ) t界值:一侧尾部面积为单侧概率,两侧尾部面积之和称为双侧概率。,17,t值表的使用续,t分布曲线两端尾部面积表示在随机抽样中,获得的t值大于等于某t界值的概率,即P值。 例如:当=9时,双侧概率=0.05时,查t界值表得 t(0.05, 9) = 2.262 。 含义为:,18,t值表中:,相同时,t值越大, P值越小; P值相同时,自由度 值越大,t值越小; t值相同时,双侧概率P为单侧概率P的两倍。 t分布的应用: 总体均数的区间估计 t检验,19,第三节 总体均数的置信区间估计 confidence interval,可信区间的概念 总体均数可信区间的计算 均数可信区间与

6、参考值范围的区别,20,一、可信区间的概念,统计推断:参数估计与假设检验。 参数估计: parametric estimation,用样本统计量估计总体参数的方法。 点(值)估计:point estimation,直接用样本统计量作为总体参数的估计值。方法简单但未考虑抽样误差大小。 区间估计:interval estimation,按预先给定的概率95%,或(1-),确定的包含未知总体参数的可能范围。考虑了抽样误差。,21,可信区间的含义 confidence interval, CI,有1- (如95%)的可能认为计算出的可信区间包含了总体参数。 例4.3 某市随机抽查12岁男孩100人,得

7、身高均数139.6cm,标准差6.85cm。该地12岁男孩身高均数的95%可信区间为:138.3(cm)141.0 (cm)。可信区间不含可信限。 Confidence limit,CL。 下限,lower limit,L/L1。 上限,upper limit,U/L2。,22,总体均数的可信区间原理,按t分布的原理得出,23,二、总体均数可信区间的计算,1、s已知时:总体均数的95%置信区间为:,24,2、s未知、且样本例数较少时,按t分布原理,总体均数的95%置信区间为:,25,例9.10 随机抽取某地健康男子20人,测得样本的收缩压均值为118.4 mmHg,标准差为10.8mmHg ,

8、试估计该地男子收缩压总体均数的95%的置信区间。 =20-1= 19 t 0.05, 19=2.093,26,3、s未知、但样本例数足够大时(n60或100时) ,按正态分布原理。,总体均数的95%置信区间为:,27,大样本时总体均数的可信区间估计,例:测得某地200名正常人血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L。试求该地正常人血清胆固醇均数95%的可信区间。,该地正常人血清胆固醇均数95%的可信区间为3.473.81( mmol/L ),28,4、两总体均数差的可信区间,从标准差相等、均数不等的两个正态总体中随机抽样,样本含量分别为n1,n2,样本均数和标准差分

9、别为 、S1和 、S2,则两总体均数之差(1- 2 )的1-可信区间为,29,两总体均数差的可信区间,某医院心内科在冠心病普查工作中,测得4050岁年龄组男性193人的脂蛋白均数为379.59(mg%),标准差为104.30 (mg%);女性128人的脂蛋白均数为357.89(mg%),标准差为89.67 (mg%)。问男性与女性的脂蛋白总体均数有多大差别?,结论:4050岁年龄组男性与女性的脂蛋白总体均数不同,男性平均比女性高出18.3061.10 (mg%),30,三、可信区间的解释 confidence interval, CI,该地健康男子收缩压总体均数的95%置信区间为(113.3,

10、123.5)mmHg。 从理论上说,做100次抽样,可计算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。这种估计方法会冒5%犯错误的风险。,31,可信区间的确切含义是指,有1- (如95%)的可能认为计算出的可信区间包含了总体参数。 在可信度确定的前提下,增加样本例数,可减少区间宽度,32,四、可信区间与参考值范围的区别,随机抽取某地200名正常成人,测得血清胆固醇均数为3.64 mmol / L,标准差为1.20 mmol / L 。求得该地正常人血清胆固醇 均数的95%可信区间为3.47 3.81(mmol / L) 95%参考值范围为1.29 5.

11、99(mmol / L),33,均数的可信区间与 参考值范围的区别,含义: 用途: 计算公式:,34,标准误(standard error)和标准差(standard deviation)的区别与联系,35,SPSS命令求总体均数的置信区间,Analyze-Descriptive Statistics-Explore,36,第四节 t检验和u检验,例 某地抽样调查了280名健康成年男性的血红蛋白含量,其均数为136.0g/L,标准差为6.0g/L。已知正常成年男性的血红蛋白为140.0g/L 。试问能否认为该地抽样调查的280名成年男性与正常成年男性的血红蛋白含量的均数不同?,0=140.0

12、g/L,已知总体,未知总体,X=136.0g/L S= 6.0g/L n=280,37,出现差别的两种可能:,总体均数不同,故样本均数有差别 总体均数相同,差别仅仅是由于抽样误差造成的 怎样判断属于哪一种可能? 先计算一个统计量,如t值,然后根据相应的概率做判断。,38,一、假设检验的基本原理,样本均数与已知总体均数不等,原因? (1) 0,两总体均数不等 (2) 0 ,抽样误差所致 这种不等,有多大的可能性由抽样误差造成?如果抽样误差造成的可能性很小,则认为 0 先假设 0 ,看由于抽样误差造成的可能性(P值)有多大?怎样计算P值的大小呢?,已知总体,未知总体,0=140.0 g/L,X=1

13、36.0g/L S= 6.0g/L n=280,39,怎样计算P值的大小呢?,若假设 0 ,则可用公式 计算t值,由t值求得P值。如果样本均数与0相差较远,t值就大,P值就小。当P小于或等于预先规定的概率值(如0.05),则为小概率事件,即在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设 0可能不成立,认为其对立面 0成立,该结论的正确性冒着犯5%错误的风险。,t0.05,200=1.97 t0.01,200=2.60 t=11.16,40,二、假设检验的基本步骤,建立检验假设,确定检验水准 选定检验方法,计算统计量 确定P值,作出推断结论,41,1、建立检验假设,确定检验水准,

14、检验假设,hypothesis under test,亦称无效假设、用H0表示 H0 : 假设未知总体参数等于已知总体参数, =0。 或假设两个总体参数相等,1 =2, 备择假设,alternative hypothesis:若H0被否决则该假设成立。用H1表示。 H1 的内容反映出检验的单双侧,分三种情况: 0 (单侧), 0 (单侧), 0 (双侧) 假设是对总体而言,不是针对样本。 H0与H1是相互联系、对立的假设。,42,单、双侧的确定,研究者所关心的只是差异是否有本质上的区别,则采用双侧检验(two-side test)。 一般认为双侧检验较保守和稳妥,尤其是多样本。 研究者想知道是

15、否有一方较高,则采用单侧检验(one-side test)。 从专业知识判断知:一结果不可能低于另一结果,拟用单侧检验。 一般认为双侧检验稳妥,故常用。,43,确定检验水准, size of a test, ,过去称显著性水平(significance level) 确定H0成立但被拒绝的概率的界值,是I型错误的概率大小。 它确定了小概率事件的大小,常取 =0.05,44,2、选定检验方法,计算检验统计量,根据变量类型、设计方案、检验方法的适用条件等 ,选择适当的检验方法和统计量。 所有检验统计量都是在H0成立的前提条件下计算出来的,这就是为什么要假设某两个(多个)总体参数相等,或服从某一分布

16、的原因。,45,3. 确定P值,作出推断结论,P值的含义是什么?指从H0规定的总体随机抽得(或)现有样本获得的检验统计量值(如t)的概率。 判断准则: 当P 时,拒绝H0,接受H1,认为差异有统计学意义(statistical significance,统计结论) ;可认为不同或不等(专业结论) 当P时,不拒绝H0,认为差异无统计学意义(no statistical significance)。还不能认为不同或不等(专业结论),46,t检验,应用条件: 样本均数与总体均数的比较、两样本均数的比较。 n较小时(如n50),理论上要求样本取自正态总体 两小样本均数比较时,要求两总体方差相等,47,

17、一、单样本t检验 one sample t-test,即样本均数代表的未知总体均数和已知总体均数0(一般为理论值、标准值或经过大量观察所得的稳定值等)的比较。这时检验统计量的计算在H0成立的前提条件下计算。,48,one sample t-test,通过以往大规模调查,已知某地婴儿出生体重均数为3.30kg,今测得35名难产儿平均出生体重为3.42kg,标准差为0.40kg,问是否该地难产儿出生体重与一般婴儿出生体重不同? 即推断样本所代表的未知总体均数与已知总体均数有无差别。 已知总体均数:理论值、标准值或经过大量观察所得的稳定值,等,49,样本均数和总体均数比较的t 检 验,建立检验假设,

18、确定检验水准 H0: = 0 (难产儿与一般婴儿出生体重的总体均数相等)(H0为无效假设) H1: 0, (难产儿与一般婴儿出生体重的总体均数不等)(H1为备择假设) =0.05 选定检验方法,计算检验统计量,50,确定P值,作出推断结论 =34, t=1.77。查附表2,t界值表(P804),t0.05/2,34=2.032, t0.05。 按=0.05水准,不拒绝H0,两者的差别无统计学意义。尚不能认为难产儿平均出生体重与一般婴儿不同 在论文中,可用下列表达方法: 经样本均数和总体均数比较的 t 检 验,t =1.77, P 0.05。尚不能认为难产儿平均出生体重与一般婴儿不同。,51,又

19、如:,已知某小样本中含CaCO3的真值是20.7mg/L。现用某法重复测定该小样本15次,CaCO3含量(mg/L)分别如下。问该法测得的均数与真值有无差别? 20.99,20.41,20.62,20.75,20.10,20.00,20.80,20.91,22.60,22.30,20.99,20.41,20.50,23.00,22.60 计算得均数为21.13,标准差为0.98,52,样本均数与总体均数的比较,建立检验假设,确定检验水准 H0: = 0 H1: 0 =0.05 选定检验方法,计算检验统计量,53,确定P值,作出推断结论 =14, 查t界值表(P804),得t0.05(14)=2

20、.145 现t=1.70, t 0.05。 按=0.05水准,不拒绝H0。根据现有样本信息,尚不能认为该法测得的均数与真值不同。,54,单样本 t 检验的SPSS操作 one sample t-test,和结果解释,55,命令:AnalyzeCompare Means One-Sample T test,56,将变量CaCO3选入Test Variables栏,在 Test Value: 键入20.70,57,SPSS分析结果,58,二、配对 t 检验 paired t-test,配对设计: 两个同质受试对象分别接受两种不同的处理 同一受试对象分别接受两种不同的处理 同一受试对象处理前后,59

21、,1. 两个同质受试对象分别接受 两种不同的处理,例: 为研究女性服用某避孕药后是否影响其血清总胆固醇含量,将20名女性按年龄配成10对。每对中随机抽取一人服用新药,另一人服用安慰剂。经过一定时间后,测得血清胆固醇含量(mmol/L)。问该新药是否影响女性血清胆固醇含量?,60,新药组与安慰剂组血清总胆固醇含量(mmol/L),61,2. 同一受试对象分别接受 两种不同的处理,例:分别用两种测量肺活量的仪器测得12名妇女的最大呼气率(L/分),问两种方法的检测结果有无差别?,62,两种方法检测12名妇女最大呼气率(L/分)结果,63,3.同一受试对象处理前后,例 应用某药治疗8例高血压患者,观

22、察患者治疗前后舒张压变化情况如下。问该药是否对高血压患者治疗前后舒张压变化有影响?,64,表 用某药治疗高血压患者前后舒张压变化情况,65,配对t检验的基本原理,设两种处理的 效应相同,即 1 = 2,则1 - 2 = 0(即已知总体0 )。即看成是差值的样本均数 所代表的未知总体均数d与已知总体均数0=0的比较。,66,若该药治疗高血压不影响舒张压的变化,则理论上每个患者治疗前后舒张压差值d的总体均数d = 0,建立检验假设,确定检验水准 H0: d = 0 H1:d 0 =0.05 选定检验方法,计算检验统计量,67,确定P值,作出推断结论,t=4.02, =n-1=8-1=7, 查t界值

23、表 t0.05(7)=2.365, t0.01(7)=3.499 因4.02 t0.01(7),故 P 0.01 经配对t检验,t=4.02, , P 0.01。可认为该药有降低舒张压的作用。,68,配对 t 检验的SPSS操作 paired t-test,和结果解释,69,命令:AnalyzeCompare Means Paired-Samples T test,70,将X1和X2成对选入Paired Variables栏 单击OK按钮,71,经配对t检验,t=4.03, P=0.005。,可认为该药有降低舒张压的作用。,72,三、两样本t检验 (完全随机设计的两样本均数比较),完全随机设计

24、: 分别从两个研究总体中随机抽取样本,然后比较两组的平均效应; 随机抽取实验对象,将其随机分成两组,分别接受两种不同处理,然后比较两组的平均效应。 应用条件 两小样本均数比较(n1,n2均小于50)时,理论上要求样本取自正态总体,两总体方差相等。,73,例 25例糖尿病患者随机分成两组,甲组单纯用药物治疗,乙组采用药物治疗合并饮食治疗法,两个月后再次测空腹血糖,问两组患者血糖值是否相同?,74,1. 建立检验假设,确定检验水准,H0 :1 = 2,两组患者的血糖值总体均数相同 H1: 1 2,两组患者的血糖值总体均数不同 =0.05,75,2. 选定检验方法,计算检验统计量,两样本的 合并方差

25、,两样本均数 之差的标准误,76,77,3. 确定P值,作出推断结论,本例t=2.639, = n1+n2-2=12+13-2=23 查t界值表,t0.05(23)=2.069, t0.01(23)=2.807 现t t0.05(23) , P0.05,差异有统计学意义,按=0.05的水准拒绝H0 ,接受H1 ,故可以认为单纯药物治疗与药物合并饮食治疗糖尿病患者的血糖值均数不同,药物合并饮食法的疗效较好。,78,两样本 t 检验的SPSS操作 Independent-Samples T test,和结果解释,79,命令:AnalyzeCompare Means Independent-Samp

26、les T test,80,将X选入Test Variable栏 将g选入Grouping Variable栏,81,定义Grouping Variable,82,单击OK按钮,83,经两独立样本t检验,t=2.64,P=0.015,故可以认为单纯药物治疗与药物合并饮食治疗糖尿病患者的血糖值均数不同,药物合并饮食法的疗效较好。,84,四、大样本(60)均数比较的 u检验,当样本含量较大时,t分布与标准正态分布很接近。用手工计算时,u的计算t比简单。查u界值表,t界值表中=一行。 SPSS都用t检验处理。,85,经t检验,P 0.05。,统计结论:两种方法测量结果的差别无统计学意义。 专业结论:

27、尚不能认为两种方法测定结果不同。 但不能证明两种测量结果相同,如要证明相同,要用等效检验。,86,第五节 假设检验的注意事项,一、I型错误(type I error) 和II型错误(type II error),87,假设检验利用小概率反证法的思想,根据样本统计量作出的推断结论具有概率性,因此其结论可能出现判断错误,通常可能发生下面两类错误。,I型错误type I error :拒绝了实际上成立的H0。可取单尾亦可取双尾。 II型错误: type II error: “接受”了实际上不成立的 H0。只取单尾,其大小在进行假设检验时一般并不知道。,88,I型错误,即检验水准。 拒绝了实际上成立的

28、H0 。一般取0.05。 II型错误,。 不拒绝实际上不成立的 H0。 检验效能, power of a test ,1。 两总体确有差异,按规定检验水准能发现 该差异的能力。,89,1-,1-,0 t ,H0成立时 H0不成立时,愈大,愈小;愈小,愈大 要同时减少与:只有增加样本含量 当n确定后,可通过定义来控制。一般 要减少,取=0.01、0.05 要减少,取=0.10、0.20,图4.1 型错误型错误示意图(单样本 t 检验,单尾),90,二、假设检验应注意的问题,保证组间的可比性 检验方法符合应用条件 实际差别大小与统计意义的区别,正 确 理 解 “显 著 性”的含义 结果判断不能绝对

29、化 单、双侧检验的选择 报告结论时,写出检验统计量,检验水准,统计量的实际差别,95%CI(差别有多大)。,91,可信区间在统计推断上提供的信息,5mmHg,92,第七节 正态性检验与 两方差齐性检验,1、图示法: 概率图(probabilityprobability plot, P-P图) 分位数图(quantilequantile plot, Q-Q图) Q-Q图效率较高。,93,2、计算法:,SPSS中用Kolmogorov-Smirnov Test。 Nonparametric test -1- sample k-s 经单样本 K-S法的正态分布检验,Z=0.587,P=0.881,

30、按=0.05水准,认为7岁男孩的身高服从正态分布。,94,正态性检验,图示法: 概率图(probabilityprobability plot, P-P图) 分位数图(quantilequantile plot, Q-Q图) Q-Q图效率较高。,95,两组资料的方差齐性检验 homogeneity,例 白血病鼠: 正常鼠: 试检验两样本对应的两总体方差是否相等?,96,两组资料的方差齐性检验,H0: 12=22,两组对应总体方差相同 H1: 1222,两组对应总体方差不同 =0.05 计算统计量 确定P值,作出推断结论 查附表3(806页),F界值表(方差齐性检验用)。F0.05,(6,6)=5.82,今F=1.484,P0.05。两组总体方差的差别无统计学意义,尚不能认为两组总体方差不等。,97,方差不齐的处理方法,近似t检验:t 检验。在方差不齐时, SPSS可选择该方法的结果。前提是该样本来自正态分布。 秩和检验,98,作业,P6667 三、计算分析题 题:1、3、4、5,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1