《区间检验统计学》word版.docx

上传人:scccc 文档编号:13440060 上传时间:2021-12-25 格式:DOCX 页数:7 大小:148.02KB
返回 下载 相关 举报
《区间检验统计学》word版.docx_第1页
第1页 / 共7页
《区间检验统计学》word版.docx_第2页
第2页 / 共7页
《区间检验统计学》word版.docx_第3页
第3页 / 共7页
《区间检验统计学》word版.docx_第4页
第4页 / 共7页
《区间检验统计学》word版.docx_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《《区间检验统计学》word版.docx》由会员分享,可在线阅读,更多相关《《区间检验统计学》word版.docx(7页珍藏版)》请在三一文库上搜索。

1、.§9.3 数值变量资料的统计推断卫生学(7)医学统计与流行病学系 骆福添一、均数的抽样误差与标准误【例】我们将某地14岁健康女生身高资料作为总体。m=155.40cm, s=5.30cm· 样本1:120例,均数154.82· 样本2:120例,均数155.41· 样本均数与总体均数(或样本均数之间)的差异称为均数的抽样误差(sampling error of mean)· 由于生物间的个体差异是客观存在的,因此抽样误差在抽样研究中是不可避免的,但有一定的规律可循¨ 从此总体随机抽取n10的100个样本,可计算100个样本的均数,得

2、频数分布如下:组段151152153154155156157158159频数1610182920862· 看出样本均数的分布近似服从正态分布 样本均数的均数为,¨ 统计学中把样本均数的标准差称为均数的标准误,简称为标准误(standard error,SE) 从正态总体中随机抽取例数为n的样本,样本均数也服从正态分布;即使从偏态总体抽样,当n足够大时(如n30),也近似服从正态分布 从均数,标准差s的正态或偏态总体抽取例数为n的样本,样本均数的总体均数为,标准差为(9-18)· 与从100个样本均数计算出的样本均数的标准差(即标准误)1.64cm相近·

3、s未知,样本标准差S作为的估计值(9-19)Luo:称为理论标准误,称为样本标准误 均数标准误的用途: 衡量样本均数的可靠性。均数标准误越小,说明样本均数与总体均数的差异程度越小,越可靠 估计总体均数的置信区间(见本节中的三) 用于均数的假设检验(见本章第四节)。二、t分布¨ 变换后,u叫作标准正态变量,u服从标准正态分布,简写为 N(0, 1) -3 -2 -1 0 1 2 3 图B 标准正态分布图P=0.025P=0.025u -1.96 m 1.96图A 抽样试验的样本均数分布图¨ 用来估计,对采用的不是u变换而是t变换(9-20)标准t变量不服从u分布,而是t分布(

4、t-distribution) -4 -3 -2 -1 0 1 2 3 4 图9-7 不同自由度下t分布图n=5n=1n=¥ (标准正态分布)t¨ t分布主要用于总体均数的区间估计及t检验等。表9-9 t界值表自由度概率P双侧: 0.100.050.020.01单侧: 0.050.0250.010.00516.31412.70631.82163.65722.9204.3036.9659.92532.3533.1824.5415.84142.1322.7763.7474.60452.0152.5713.3654.03261.9432.4473.1433.70771.8952.

5、3652.9983.49981.8602.3062.8963.35591.8332.2622.8213.250101.8122.2282.7643.169111.7962.2012.7183.106121.7822.1792.6813.055131.7712.1602.6503.012141.7612.1452.6242.977151.7532.1312.6022.947161.7462.1202.5832.921171.7402.1102.5672.898181.7342.1012.5522.878191.7292.0932.5392.861201.7252.0862.5282.845211

6、.7212.0802.5182.831221.7172.0742.5082.819231.7142.0692.5002.807241.7112.0642.4922.797251.7082.0602.4852.787261.7062.0562.4792.779271.7032.0522.4732.771281.7012.0482.4672.763291.6992.0452.4622.756301.6972.0422.4572.750401.6852.0212.4232.704501.6762.0092.4032.678601.6712.0002.3902.6605001.6481.9652.58

7、61.6451.9602.576三、总体均数的置信区间估计¨ 反映总体特征的统计指标称为参数(parameter)¨ 反映样本特征的统计指标称为统计量(statistic)1点(值)估计(point estimation) 例如样本均数、样本标准差S是总体均数、总体标准差的点估计,即2区间估计(interval estimation)· 根据一定的置信度进行估计得到的区间,称为置信区间或可信区间(confidence interval ,CI)· 可信度(confidence level)要预先确定,可用1-表示,常用的可信度为95%(1)已知时,按正态

8、分布原理(9-21)(2)未知、且样本例数较小时,一般按t分布原理,95%置信区间为(9-22)(3)未知,但样本例数n足够大时(9-23)例9-13 随机抽取某地健康男子20人,测得收缩压均数=118.4mmHg,标准差S=10.8mmHg,试估计该地男子收缩压总体均数的95%置信区间。本例自由度n -120 -119,0.05,查t界值表,得t0.05,192.093,代入公式9-22()=()=(113.3,123.5)· 这种估计方法犯错误的风险约5%Luo:正态分布指标的表达问题(1)118.4±10.8 ¬® 描述样本数据特征,不必注释(2)

9、118.4±2.41 ¬® 反映样本均数的代表性,一定要注释说明(SE即的英文符号)(3) ¬® 95%的(个体) x分布在此范围(参考值)(4) ¬® 95%的(指标)分布在此范围(5) ¬® 95%的置信度估计m在此区间 ¨“范围”指分布范围,“区间”指数轴上的一段四、假设检验的基本思想和步骤例9-14 某地抽样调查了280名健康成年男性的血红蛋白含量,其均数为136.0g/L,标准差为6.0g/L。已知正常成年男性血红蛋白的均数为140.0g/L。试问能否认为该地抽样调查的280名成年男性

10、的血红蛋白含量与正常成年男性的血红蛋白含量的均数不同?步骤:1. 建立检验假设H0和备择假设H1 H0:0(=140.0),即该地成年男性血红蛋白含量与全国的平均水平相同(相等) H1:0(本例双侧检验),即该地成年男性血红蛋白含量与全国的平均水平不相同(不相等) 如果是单侧检验,则H1:>0 (或<0)2. 确定检验水准 a=0.05 (小概率界限)3. 选定检验方法和计算检验统计量 按公式9-20计算检验统计量t值 本例为大样本,也可以用近似u检验4. 确定P值和作出推断结论。 本例t0.01,2002.601,结论表述为: t11.16,P0.01,拒绝H0,接受H1,认为该

11、地成年男性血红蛋白含量与全国的平均水平不相同。 结合样本信息,可认为该地男子血红蛋白含量偏低。Luo:关于H1的表述 统计结论(H1):不分高低(差异有统计学意义差异有显著性)实际推论(H1):决择高低(结合样本信息作出抉择)结语一、均数的抽样误差与标准误1. 均数的抽样误差是指样本均数与总体均数的差别(抽样.个体变异,不可避免.有规律) ·从抽样实验、理论上:样本均数服从正态分布2. 标准误是描述抽样误差大小的指标,等于标准差除以例数的平方根(从抽样实验、理论上看:标准误样本均数的标准差)3. 应用:反映样本均数的代表性、估计置信区间、假设检验二、t分布1. 来源:X服从正态,以S

12、代替s的标准化量,2. 特征(与标准正态u分布对比)(1)外观:峰较低尾较高、对称于0点(2)参数:比u分布多一个参数自由度(3)面积:同一统计量,t分布尾部面积较大相同P值(相同的尾部面积),t分布界值较大三、总体均数的置信区间估计(95%CI)· 它是均数误差分布的逆推理,置信度95%不是概率(近似),一般不叫把握度1. 小样本:2. 大样本:四、假设检验的基本思想和步骤1. 假设:样本差异包含“本质+误差”两部分,不假设无规律可循;在假设条件下,样本差异可用误差分布规律分析2. 统计量:根据分布类型选择统计量,统计量实质上是基于标准误的、相对的差异程度3. 确定P值:通常,统计量愈大P值愈小(离0点远尾巴小)· 小样本检验结论无统计学意义,不说明问题、无实际价值作业: (一) : (二)思考题: 7 (三)应用题: 9*;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1