第4章抽样误差与假设检验ppt课件.ppt

资源描述

《第4章抽样误差与假设检验ppt课件.ppt》由会员分享，可在线阅读，更多相关《第4章抽样误差与假设检验ppt课件.ppt（23页珍藏版）》请在三一文库上搜索。

1、第四章抽样误差与假设检验（Sampling Error and Hypothesis Test）哈尔滨医科大学李康第一节均数的抽样误差与标准误一、均数的抽样误差在医学研究中，绝绝大多数情况是由样样本信息研究总总体。由于个体存在差异，因此通过样过样本推论总论总体时时会存在一定的误误差，如样样本均数往往不等于总总体均数，这这种由抽样样造成的样样本均数与总总体均数的差异称为为抽样误样误差。对于抽样研究，抽样误差不可避免。二、抽样误差的分布理论论上可以证证明：若从正态总态总体中，反复多次随机抽取样样本含量固定为为n 的样样本，那么这这些样样本均数也服

2、从正态态分布，即的总总体均数仍为为，样样本均数的标标准差为为。抽样分布抽样分布示意图中心极限定理: 当样样本含量很大的情况下，无论论原始测测量变变量服从什么分布，的抽样样分布均近似正态态。抽样分布抽样分布示意图三、标准误（Standard Error）样本均数的标准差称为标准误。样样本均数的变变异越小说说明估计计越精确，因此可以用标准误表示抽样误差的大小：实际中总体标准差往往未知，故只能求得样本均数标准误的估计值：例4.1 在某地随机抽查成年男子140人，计算得红细胞均数4.771012/L，标准差0.38 1012/L ，试计算均数的标准误。标准

3、误是抽样分布的重要特征之一，可用于衡量抽样误差的大小，更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。第二节总体均数的估计一、可信区间的概念(Confidence Interval）区间估计：指按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。事先给定的概率称为可信度，通常取。参数估计点估计：不考虑抽样误差，如区间估计：考虑抽样误差二、可信区间的计算（一）已知一般情况其中为标准正态分布的双侧界值。可信区间：标准正态分布（二）未知通常未知，这时可以用其估计量S 代替，但已不再服从标准正态分布，而是服从著名的 t 分布。

4、图4-2 不同自由度的 t 分布图可信区间的计算: 计算可信区间的原理与前完全相同，仅仅是两侧概率的界值有些差别。即可信区间：需要注意：在小样本情况下，应用这一公式的条件是原始变量服从正态分布。在大样本情况下（如n100),也可以用替换近似计算。例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 g/L，标准差为0.57 g/L，试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。下限：上限：例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。本例属于大样本，可采用正态近似的方法计算可信区间。因为，则95%可

5、信区间为：下限：上限：三、模拟实验模拟抽样成年男子红细胞数。设定: 产生100个随机样本，分别计算其95%的可信区间，结果用图示的方法表示。从图可以看出：绝大多数可信区间包含总体参数，只有6个可信区间没有包含总体参数（用星号标记）。图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图 * * * * * 第三节假设检验的意义和步骤 (Hypothesis Test) 统计统计推断的另一个重要内容，目的是通过样本数据比较总较总体参数之间间有无差别别。一、假设检验设检验的基本思想例4.4 使用黑加仑油软胶囊治疗高脂血症， 30名高脂血症患者治疗前后

6、血清甘油三酯检测结果的差值为1.380.76 (g/L)，问治疗后血清甘油三酯是否有所改善？样本治疗前后甘油三酯的变化（差值）问题归纳：样本疗效药物作用 + 机遇对上面问题可以作如下考虑：问题：究竟多大能够下“有效”的结论？假定治疗前后血清甘油三酯检测结果的差值服从正态分布，若则服从t 分布。根据 t 分布能够计算出有如此大差异的概率P ，如果P 值很小，即计算出的t 值超出了给定的界限，则倾向于拒绝 H0，认为治疗前后有差别。图4-3 利用t 分布进行假设检验原理示意图二、假设检验的基本步骤 1.建立假设和确定检验水准无效假设H0(null hypo

7、thesis)指需要检验的假设，备择假设H1(alternative hypothesis)指在H0 成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为检验检验水准是预预先规规定的拒绝绝域的概率值值，实际实际中一般取。说明：备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差，若显著地超出检验水准则拒绝H0，即为双侧检验；单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0 ，如治疗后血清甘油三酯下降的假设可表示为双侧检验和单侧检验应如何选择，需根据研究目的和专业知识而定。一般情况下，双侧

8、检验侧检验更为稳为稳妥，因为对为对相同的样样本，双侧检验侧检验得出有显显著性差别别的结论结论，单侧检验单侧检验也一定是显显著的。 2.选择检验方法和计算检验统计量根据资料类型、研究设计方案和统计推断的目的，选择适当的检验方法，不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统计量来命名的，如 t 检验、u检验、F检验和检验等。 3.确定P 值并做出统计推断结论查表得到检验用的临界值，然后将算得的统计量与拒绝域的临界值作比较，确定P 值。如对双侧 t 检验，则 ,按检验水准拒绝H0。小结 1.总总体参数值值在现实现实中通常不能获获

9、得,而是通过过随机样样本来进进行估计计。由于个体存在差异，因此通过样过样本推论总论总体时时会存在一定的误误差，这这种由抽样样造成的样样本均数与总总体均数的差异称为为抽样误样误差。抽样误样误差的大小可以用标准误进行衡量。 2.参数估计计有点估计计和区间间估计计两种方式。点估计计的重要表达方式是平均值；区间间估计计是指按预预先给给定的概率，计计算出一个区间间，使它能够够包含未知的总总体均数。区间间越窄说明估计的准确度越高。 3.总总体均数可信区间间的计计算公式可以利用的抽样样分布获获得。一种重要的方法是利用 t 分布计算区间两端的可信限。单侧单侧可信区间间只需将公

10、式中的双侧侧界值换值换成单侧单侧界值值。 4.假设检验设检验的思想是，首先对对所需要比较较的总总体提出一个无差别的假设设，然后通过样过样本数据去推断是否拒绝这绝这一假设设。其实质实质是判断观观察到的“ 差别别”是抽样误样误差引起还还是总总体上的不同，目的是评价两个不同的参数或两种不同处理引起效应不同的证据有多强，这种证据的强度用概率P 度量和表示。 5.假设检验设检验有三个基本步骤骤：建立假设和确定检验水准，通常选选择检验选择检验方法和计计算检验统计检验统计量确定P 值值和做出统计统计推断结论结论所有的假设检验都按照这三个步骤进行，各种检验方法的差别在于第步计算的检验统计量不同。

展开阅读全文