医学统计学.docx_三一文库31doc.com

资源描述

《医学统计学.docx》由会员分享，可在线阅读，更多相关《医学统计学.docx（8页珍藏版）》请在三一文库上搜索。

1、第一单元概述1. 研究设计应包括那几方面内容？答：包括：专业设计和统计设计。专业设计是针对专业问题进行的研究设计，如选题、形成假说等。统计设计是针对统计数据收集和分析进行的设计，如样本来源、样本量等。统计设计是统计分析的基础。任何设计上的缺陷，都不能在统计分析阶段弥补和纠正。第二单元资料描述性统计1. 描述计量资料的集中趋势和离散趋势的指标有哪些？各指标的适用范围如何？答：集中趋势的指标有：算术均数、几何均数、中位数。算术均数适用于描述对称分布资料的集中位置，尤其是正态分布资料；几何均数用来描述等比资料和对数正态分布资料的集中位置；中位数可用于任何资料。描述离散趋势

2、有：极差、四分位数间距、方差、标准差和变异系数。极差和四分位数间距可用于任何分布，但两个指标都不能反映变异程度；方差和标准差常用于资料为近似正态分布；变异系数可用于多组资料间量纲不同或均数相差较大时变异程度间的比较。2. 变异系数和标准差有何区别和联系？答：区别： 1.计算公式不同： CV=S/X*100% ，标准差是方差的平方根。 2.单位不同：变异系数无量纲，标准差量纲和原指标一致。 3.用途不同。联系：都是适用于对称分布的资料，尤其是正态分布的资料，并且由公式所知，在均数一定时， CV 与 s 呈正比。3. 频数表的用途有哪些？答： 1.描述资料的频数分布的特征； 2.便于发

3、现一些特大或特小的可疑值；3.将频数表作为陈述资料的形式，便于进一步的统计分析和处理；4.当样本量足够大时，可以以频数表作为概率的估计值。4. 用相对数时应注意哪些问题？答： 1.在实践工作中，应注意各相对数的含义，避免以比代率的错误现象。 2.计算相对数时分母应该有足够的数量，如资料的总数过少，直接报告原数据更为可取。3.正确计算频数指标的合并值。 4.相对数的比较具有可比性。 5.在随机抽样的情况下，从样本估计值推断总体相对数应该考虑抽样误差，因此需要对相对数指标进行参数估计和假设检验。第三单元医学统计推断基础1. 正态分布和标准正态分布的联系和区别？答：联系：均为连续型随机变量分

4、布。区别：标准正态分布是一种特殊的正态分布（均数为 0，标准差为 1）。一般正态分布变量经标准化转换后的新变量服从标准正态分布。4. 简述二项的应用条件？答：条件为： 1.每次试验只会发生两种互斥的可能结果之一，即两种互斥结果的概率之和为 1；2.每次试验产生某种结果固定不变； 3.重复试验是相互杜立的，即任何一次试验结果的出现不会影响其他试验结果的概率。5. 简述 Q-Q 图法的基本原理？答：U-变换可以把一个一般正态分布变量变换为标准正态分布变量，反之，U-变换的逆变换也可以把一个标准正态分布变量变换为一个正态变量。 Q-Q 图法实际上就是首先求的小于某个 x 的积累频率，再通过该

5、积累频率求得相应的 u 值，如果该变量服从正态分布，则点（ u， x）应近似在一条直线上（u 变换直线），否则（u, x）不会近似在一条直线上。Q Q图法正是根据（u, x）是否近似在一条直线上来判断是否为正态分布。第四单元参数估计与参考值范围的估计1. 均数的标准差和标准误的区别和联系？答：区别和联系：标准差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能通过统计方法来控制；而标准误则是指样本统计量的标准差，均数的标准误实质上是样本均数的标准差，它反映了样本均数的离散程度，也反映了样本均数与总体均数的差异，间接反映了均数的抽样误差大小。2. 简述t分布和标准正态分布间的区

6、别与联系？答：t分布是进行小样本总体参数区间估计和假设检验的理论基础，t分布比标准正态分布的峰值低，且尾部翘的要高。此外随着自由度的增大，t分布逐渐趋近于标准正态分布，即为自由度趋于无穷时，t分布就是标准正态分布。3简述医学中参考值范围的含义和制定参考值范围的一般步骤？答：含义：医学中把绝大多数正常人的某指标范围称为该指标的参考值范围，也叫正常值范围。步骤：1.定义“正常人”，不同的指标“正常人”的定义也不同；2.选定足够数量的正常人作为研究对象；3.用统一和准确的方法测定相应的指标；4.根据不同的用途选定适当的百分界限，常用95%和99% ； 5.根据此指标的实际意义，决定用单侧范围还是双侧

7、范围；6.根据此指标的分布决定计算方法，常用的计算方法有正态分布法、百分位数法。第五单元t检验与单因素方差分析1.1型错误和II型错误有何区别与联系，这两种错位有何实际意义？答：I型错误是指实际上成立的 H0所犯的“弃真”错误，其概率大小用a表示。II型错误则是指“接受”了实际上不成立的H0所犯的“取伪”错误，其概率大小用B表示。当样本含量n确定时，a愈小，B愈大，反之亦然。意义：若在应用中要重点减少a, 则取a= 0.01 ；若在应用中要重点减少则取a= 0.05, 0.10 , 0.20甚至更高。2. 假设检验和区间估计有何联系？答：联系在于可信区间亦可以回答假设检验的问题，在判断两个或

8、多个总体参数是否相等时，假设检验和可信区间是完全等价的。3. 为什么假设检验的结论不能绝对化？答：因为通过假设检验的结论具有概率性，其结论不可能完全正确，有可能发生两类错误。拒绝H0是可能犯I型错误；接受 H0时可能犯II型错误。因此不能在结论中使用绝对化字词如“肯定”等。5. 如何正确选取单侧或双侧检验？答：单双侧检验首先应根据专业知识来确定，同时也应该考虑所要解决问题的目的。1. 若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果，则用单侧检验；2.在尚不能从专业知识判断两种结果谁高谁低时，用双侧检验；3.若研究者对低于或高于两种结果都关系，用双侧检验；若只关系其中一种可能，用

9、单侧检验。一般认为双侧检验较保守和稳妥；单侧检验由于充分利用了另一侧的不可能性，故更易得出有差别的结论，但应慎用。6. 两样本t检验的应用条件？答：条件为：两样本相互独立的；所来自的总体为正态总体；两总体方差相等。7. 方差分析的应用条件？答：条件是：1.各样本是相互独立的随机样本，均服从正态分布；2.相互比较的各样本的总体方差相等，即具有方差齐性。第六单元列联表分析1. R*C表的卡方检验中，对于理论频数太小的情况应如何处理？答：处理方法：1.增加样本含量，以达到增大理论频数的目的，该方法为首先；2.根据专业知识，删除理论频数太小的格子所对应的行或列，可能损失样本信息或随机性，慎用；3.根

10、据专业知识，将理论频数太小的格子所对应的行或列与性质相近的或邻列合并，使重新计算的理论频数变大，但要合并的合理；4.改用双向无序的 R*C表的Fisher确切概率法，该方法计算复杂，需要 SAS软件实现。第七单元非参数统计分析方法1简述非参数检验的应用条件？答：条件：1资料不符合参数统计法的应用条件或总体分布类型未知；2.等级资料；3个别数值偏大或某一端为不确定数如0时，随着Xj的增加，OR值也增加，Xj是危险因素；当Bj0时，随着Xj的增加，OR值减少，Xj是保护因素。3. Logistic回归与多元回归有何不同两种方法各有何特点？答：不同：Logistic回归属于概率型非线性回归，应变量Y

11、是一个二值变量或多分类变量（服从二项分布）；而多元线性回归的应变量一般为连续变量（服从正态分布）。特点：多元线性回归分析既适合大样本资料又可用于小样本资料，但要求对自变量的不同取值，应变量Y服从正态分布和等方差；Logistic回归除要求应变量为分类变量外，对资料几乎没有什么限制，而且参数具有明确的实际意义，但要求有较大的样本含量。4. Logistic回归分析可使用哪些类型的自变量？答：可使用可使用连续型变量、名义变量和有序分类变量。当Logistic回归模型中自变量含有分类变量，需要将分类变量转换为哑变量；若变量既有连续变量又有分类变量，最好将连续变量转化为分类变量去处理，以便解释。5.

12、Logistic回归主要用于哪种类型的资料？答：主要用于配对资料的分析。最常用的是每一个匹配组中有一个病例和一个对照，即1:1配对研究。6用逐步回归法得到的方程是否最优？为什么？答：不一定，逐步回归法是一种有进有出的双向筛选方法，虽然能够保证进入方程的每一个自变量具有统计学意义，并可以将一些退化为 “不显著”的自变量从方程中剔除，但是没有全面考虑不同自变量间的组合作用，得到的只是一个局部最优的回归方程。第十七单元：生存分析1生存分析中出现截尾数据常见的原因有哪些？答：原因有：1失访；2退出；3终止。2生存率和生存概率的区别和联系：答：区别：生存概率，记为 p，表示在某单位时段开始时存活的个体到

13、该时段结束时仍存活的可能性大小；生存率，记为S（k），是指观察对象活过 tk时刻的概率，实质上是累积生存概率。联系：生存概率是单个时段的概率，生存率是从0到tk多个时段的积累结果。3为什么两个样本比较的生存时间资料不适宜采用t检验或卡方检验进行分？答：因为随访资料具有特殊性，观察对象既有随访结果又有随访时间，随访期间可能有失访等情况出现，生存时间时间不完整，分布类型复杂，因而不能简单的套用t检验或卡方检验进行分析。4一个完整的生存分析资料应包括哪些内容？基本要求是什么？答：包括的内容有：1每个观察对象的开始随访时间，如入院时间、确诊时间等。2随访结局以及终止随访时间，如以死亡为终点事件，随访

14、结局可能有以下几种：死亡、失访、死于其他原因、随访结束时观察对象仍然存活。3可能影响生存的有关因素，如患者的年龄、性别、病程、病情，癌症分期等。5. Cox回归与Logisitic回归都可用于临床研究中的预后分析，二者的主要区别是？答：Logisitic回归模型可以用于多因素预后分析，控制混杂因素效应，并可进行优势比OR估计，但不能处理随访中常见的删失数据。另外Logisitic回归模型仅考虑随访结局，而未考虑出现该结局的时间长短。Cox比例风险回归模型的应变量是观察结局和有关时间，它不仅从结局的好坏，而且可以从出现改结局的时间长短进行分析比较，并可进行相对危险度RR的估计，因而Cox回归具有Logisitic回归模型的所有优点，并可处理删失数据，特别适用于长期随访资料的分析，如肿瘤及慢性病的预后分析。但当数据删失较少或终点事件较少时，宜用Logisitic回归。6生存分析的主要用途及其统计学方法有哪些？答：意义：1估计，根据样本生存资料估计总体生存率及其他生存指标，估计生存率常用乘积限法和寿命表法。2比较，Log rank检验可用于两组或多组生存率的整体比较。3影响因素分析，目的是为了探索和了解影响生存时间长短和生存率的因素。Cox回归模型是目前多因素生存分析的最主要方法。4预测，具有不同因素水平的个体生存预测。借助Cox回归模型。欢迎下载8

展开阅读全文