医学统计学简答题总结必考大题总结考前必看.doc

资源描述

《医学统计学简答题总结必考大题总结考前必看.doc》由会员分享，可在线阅读，更多相关《医学统计学简答题总结必考大题总结考前必看.doc（5页珍藏版）》请在三一文库上搜索。

1、描述计量资料的集中趋势和离散趋势的指标有哪些？各指标的适用范围如何？答：描述计量资料集中趋势的统计指标常见的有算数均数、几何均数、中位数。算数均数适用于描述对称分布资料的集中位置，尤其是正态分布的资料；几何均数一般用来描述等比资料和对数正态分布资料的集中位置；中位数可以使用于任何分布的资料，尤其是偏态分布。分布不明或分布末端无确定值的资料。描述离散趋势的指标常见的有极差、四分位数间距、方差、标准差和变异系数。极差与四分位数间距可以用于任何分布，后者比前者稳定，但是这两个指标都不能综合反映各观察值得变异程度；方差和标准差最常用，但要求资料近似正态分布；变异系数可以用于多组资料间量纲不同或均数相

2、差较大的时候变异程度的比较。频数分布表（图）的用途有哪些？1描述资料的分布类型，是对称分布还是偏态分布；2描述变量的分布特征：集中趋势和离散趋势；3便于发现某些离群值或异常值；4便于进一步的统计分析和处理；5当样本含量够大的时候，我们还可以以频率作为概率的估计值。变异系数和标准差有何异同？答：不同点：变异系数主要用于量纲不同的变量间，或均数相差较大的变量间的变异程度的比较。所以变异系数是没有量纲的，而标准差是方差的平方根，标准差的量纲与原指标的一致，它适用于近似正态分布的资料。相同点和联系：变异系数和标准差都是用于对称分布资料，尤其是正态分布的资料，且还可以知道变异系数是由标准差计算得到的。

3、应用相对数的注意事项：1、防止概念混淆2.频率型指标的解释要紧扣总体与属性3、计算相对数时分母应有足够数量4.正确计算合计频率5、注意资料的可比性6.正确进行相对数的统计推断。为什么不能以构成比代率？请联系实际加以说明。率和构成比所说明的问题不同，因而绝不能以构成比代率。构成比只能说明各组成部分的比重或分布，而不能说明某现象发生的频率或强度。.二项分布：如果每个对象阳性结果的发生概率为，阴性结果的概率为1-，而且各个观察对象的结果是相互独立的，那么，重复观察N个人，发生阳性次数的概率分布为二项分布。适用条件：1试验只会出现两种对立的结果2每次试验阳性和阴性结果概率固定不变3每次试验相互独立。性

4、质和特征：1形态取决于和n，当接近于0.5时，分布对称，离0.5越远，分布对称性越差，当n增大时，分布趋于对称2，高峰在=n处 3、二项分布的总体均数=n，方差=n（1-），n和n（1-）都大于5时，近似服从正态分布 Poission分布：可以看作是每个观察对象阳性结果的发生发生概率很小，而观察例数n很大时的二项分布。特征：1.它的分布属于离散型分布2.当总体均数入值小于5时为偏锋，入愈小分布愈偏，随着入增大，分布趋向对称3.总体均数与总体方差相等。正态分布的概念，图形特征和应用：A正态分布是自然界最常见的一种分布，特点是中间频数最多，两边频数渐少且对称；B表现为钟形曲线，曲线下面积为1；决定

5、曲线在横轴上的位置，u增大，曲线沿横轴向右移，反之曲线沿横轴向左移；决定曲线的形状，当u恒定时它越大数据越分散，曲线越矮胖；越小数据越集中，曲线越瘦高；C正态分布的应用：A确定医学参考值范围：指特定的“正常”人群的解剖，生理，生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。范围有两种：百分位数，适用于任何分布类型的资料。正态分布法，若X服从正态分布，可以依赖正态分布规律计算。B质量控制图C计算频率、频数D作为统计学基础。标准误和标准差的区别：1）标准差反映个体值散布的程度，标准误反映精确知道总体参数的程度2）标误小于标差3）样本含量越大，标误越小，其样本均数更有可能接近于总体均数

6、，但标差不随样本含量的改变而有明显方向性改变，随着样本含量的增大，标差可能增大也可能减小。t分布特点：1.t分布是以0为中心的单峰分布，左右完全对称。2.v越小，t值越分散，曲线的峰部越矮，尾部越高，3当自由度v逐渐增大时。t分布逐渐逼近标准正态分布，当v趋于无穷时，t分布就完全成为标准正态分布。假设检验：也称显着性检验，利用小概率反证法思想，首先根据设计和研究目的提出某种假设，再根据现有的资料提供的信息，推断此假设应当拒绝还是不拒绝。步骤：1，建立检验假设确定检验水准2，计算检验统计量3，确定P值，做出推断。假设检验注意事项：A要有严密的抽样研究设计，样本的代表性和组间的均衡性；B正确选用检

7、验方法。根据研究目的，设计类型，变量类型和样本的大小选择恰当的检验方法C.正确理解P值的含义。差别有统计学意义，不能理解为两者差异大，也不能理解为所分析的指标在实际应用中就有“显着效果”。D应结合专业知识理解统计推断的结论，即统计学差异显着的意义与实际意义的差别。E写研究报告时，应写出检验统计量，检验水准，并注明单双侧及p值的确切范围。假设检验中P值涵义：是指在零假设成立的条件下，出现统计量目前值及更不利于零假设数值的概率。（课本）。是指从Ho规定的在体内中进行随机抽样，所观察到的等于及大于现有样本检验统计量的概率。检验水准：无效假设为真时，拒绝无效假设的概率。是由研究者事先确定的，常用值有0

8、.05,0.01.假设检验中检验水准和P值的关系？以t检验为例，和P都可用t分布的尾部的面积大小表示，所不同的是：值是指在统计推断时预先设定一个小概率值，即原假设H0成立，经检验被拒绝的概率。P值是由实际样本计算得到的，是指在Ho成立的前提下，出现等于或大于现有检验统计量的概率。假设检验是如何确立单双侧？1）假设检验中根据专业知识和研究目的来确定采用单侧还是双侧2）若根据专业知识有充分把握可以排除某一侧，可采用单侧检验3）在没有充分理由进行单侧检验时，为稳妥起见，应选用双侧检验。简述两类错误及其关系？假设检验是由样本信息对总体特征进行推断，因此无论做出那种推断结论，都有可能发生错误。假设检验时

9、，拒绝原本正确的H0,犯第I类错误，称为弃真错误；不能拒绝原本错误的H0，犯第II类错误，称存伪错误。犯第一类错误的概率用表示，其数值根据研究者的要求来确定；犯第二类错误的概率用表示，它只有与特定的H1结合起来才有意义。对某一具体的检验来说，当样本量n一定时，越大越小；越小越大。为了同时减小和，只有通过增加样本含量减少抽样误差来实现。影响检验效能的因素：总体参数的差异越大，个体差异（标准差）越小，样本量越大，检验水准越大（越松），检验效能越大。为什么假设检验的结论不能绝对化？假设检验的结论是根据小概率事件在一次实验中实际不可能发生的原理作出的，若检验水准=0.05则P0.05表示在Ho成立的条

10、件下，出现大于或等于现有统计量的概率等于或小于0.05，是小概率事件，即在一次实验中几乎不可能出现的事件，因此拒绝Ho，但并非Ho不成立，绝对Ho可能犯I型错误，反之，若P0.05.则不拒绝Ho，但并非Ho绝对成立，不拒绝Ho有可能犯II型错误。方差分析的基本思想：根据资料的实验设计类型把全部观察值总的离均差平方和与自由度分解为两个或多个部分，然后将各影响因素产生的变异与随机误差进行比较，以判断各部分的变异与随机误差相比，是否有统计学意义。方差分析的前提条件：1）各样本是相互独立的随机样本，均服从正态分布2）各样本的总体方差相等即方差齐性。随机区组设计：事先将全部受试对象按自然属性分为若干区组

11、，原则是各区组内的受试对象的特征相同或相近，且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对象随机地分配到各处理组，这种设计叫随机区组设计。方差分析后为什么不能直接做两两比较的t检验？答：会增加犯一类错误的概率，如果比较次数是k。每次检验水准是，则犯一类错误的累积概率为1-（1-）k，明显高于原来的。若要做两两比较的t检验，则其检验水准应减小，可按Bonfferoni方法或Sidak方法进行调整，同时两样本均数之差标准误的计算应当采用多个样本的数据，而不仅仅是被比较两组的数据。方差分析中的F检验为何是单侧检验？答：方差分析中检验统计量F的计算通常是用某部分的均方除以误差的均方，

12、其中分母误差部分的均方仅包含随机因素的作用，而分子某部分的均方不但含有相应处理因素或交互作用的效应，而且还含有随机因素的作用，因此算得的F值从理论上讲应大于或等于1，不会小于1.因此方差分析时的F界值采用单侧检验的界值。是否一定要经过方差分析发现有统计学意义后，再作均数间的两两比较？答：一般是这样。实际上，经方差分析发现有统计学意义后，再作均数间两两比较属于未计划好的事后比较。而LSD-t检验、Dunnett-t检验和Tukey HSD检验等多重比较就没有必要事先进行方差分析。分析实际资料时，有事可能会出现以下两种情况：一是方差分析有统计学意义，但两两比较均无统计学意义，二是方差分析物统计学意

13、义，但两两比较中某些均数间有统计学意义。对于这两种现象，如果P值在检验水准附近，则下结论时应特别谨慎，通常应当增加样本量后再作分析和推断。实际频数与理论频数：实际频数就是实际观察单位个数，理论频数是在假设多个率或构成比相等的前提下由合计率（构成比）推算出来的频数。简述X2检验的用途？主要用于：1、比较两个或多个独立样本频率或独立样本频率分布；2、比较配对设计量样本频率分布；3单样本分布的拟合优度；4、推断两个变量或特征之间有无关联性。非参数检验:是不依赖总体分布类型，也不对总体参数进行统计推断的一类统计方法。应用条件：1）不满足正态分布和方差齐性齐性条件的小样本资料2）分布不明的小样本资料3）

14、一端或两端是不确定数值的资料4）等级资料。优点：a适用范围广，对变量的分布无特殊要求b对数据要求不严，对某些指标不便准确测定只能以严重程度、优劣等级做记录的资料也可应用。缺点：对于符合参数检验的资料如果用参数检验，由于没有充分利用资料提供的信息（用秩次而非原始数据计算统计量），故检验效能低于参数检验。若要使检验效能相同，往往需要更大的样本含量。线性相关分析的基本步骤：1）绘制散点图，看有无线性关系2）估计简单相关系数r3）检验简单相关系数P是否有统计学意义。应用直线相关分析时应注意哪些问题？进行相关分析之前，应绘制散点图。当散点分布有直线趋势时，才适宜作相关分析。另外散点图还能提示资料有无异常

15、，若出现异常点时慎用相关。相关分析要求两变量为服从双变量正态分布的随机变量，因此当有一个变量的数值人为选定时莫作相关分析。样本的相关系数接近于零并不意味着两变量间一定无相关性，也可能存在非线性（曲线）关系。相关关系不一定是因果关系，也可能是伴随关系，有相关关系不能证明事物间确有内在联系。分层资料不能盲目合并，否则易出假象。线性回归模型的适用条件：1）线性：因变量Y与自变量X呈线性关系2）独立：每个个体观察值之间相互独立3）正态性：在一定范围内，任意给定X值，其对应的随机变量Y服从正态分布4）方差齐性，在一定范围内，不同的X值对应的随机变量Y的方差相等。回归分析的基本步骤：绘制散点图；求回归系数

16、和常数项（最小二乘法）；回归系数和常数项的假设检验（回归系数t检验）；回归方程的假设检验和解释（单元素方差分析）。相关和回归分析的区别和联系：区别：1、资料要求，线性回归要求应变量y是服从正态分布的随机变量，x是可以精确测量和严格控制的变量，一般称为1型回归；线性相关要求两个变量x和y为服从双变量正态分布的的随机变量，两变量之间如进行回归分析称为2型回归。 2、应用目的：说明两变量之间的关联关系用相关分析，说明两变量之间的依存关系用回归分析。 3、意义：回归系数b表示x每增减一个单位时，y平均改变b个单位；相关系数r说明具有线性相关的两个变量间关系的密切程度与相关方向。 4、计算：r= 5、取

17、值范围 b全体实数 r正负1 。6、单位b是有量纲的，受xy计量单位的影响，r是无量纲的，不受xy计量单位的影响联系 1、方向一致对一组数据若能同时计算b和r 他们的符号是一致的 2、假设检验等价对同一样本，r和b的假设检验得到的t值相等 3、用回归解释相关决定系数既ss回/ss总，回归平方和越接近总平方和则r2越接近1，说明相关性越好。简述简单线性回归分析时应注意的事项？1、做线性回归分析时要有现实意义，不能把两种毫无关系的现象作回归分析，必须对两种现象的内在联系有所认识。2、在进行回归分析之前，应先绘制散点图。当观察点的散布有直线趋势时，才适宜作线性回归分析。如果散点图呈现明

18、显的曲线趋势，应使之直线化再作线性回归分析，散点图还可以提示有无异常点。3、线性回归方程的应用范围一般以自变量的取值范围为限，若无充分理由证明超过该范围仍然是直线关系，不应外延。4、双变量正态分布资料的线性关联关系经假设检验有统计学意义，则直线回归关系也有统计学意义，两个检验结果等价。5、有直线回归关系不一定有因果关系，也可以是伴随关系，反馈关系等，有回归或相关关系时不能证明事物间确有内在联系，因变量和自变量之间的联系，应该结合专业知识来解释。经检验认为回归方程有意义，是否可以认为两变量之间有因果关系？答：两变量不一定存在因果关系。简单线性回归定量考察应变量与自变量间的线性依存关系，统计学检验

19、表明回归方程有意义，只是说明二者数量上的线性联系存在，至于该内在联系的性质，则可能是伴随关系、反馈关系、因果关系等尚需结合专业知识来确定。多重线性回归模型：1）线性，指反映变量Y的总体平均值于自变量X成线性关系。2）独立性，任意两个记录互相独立3）正态性，误差项服从正态分布4）等方差性，自变量X取值范围内，不论X取什么值Y都具有相同的方差。诊断：残差分析，残差的直方图判断分布的正态性，绘制残差与反应变量预测值的散点图是否满足线性和方差齐性。应用多重线性回归的注意事项：A因变量Y是服从正态分布的连续型随机变量；B自变量最好是连续型变量，也可以是等级资料，若自变量是多项无序分类资料，则必须先哑变量

20、化后才能进入模型；C利用自变量对因变量进行预测是回归分析的主要目的之一，此时，只能在x的取值范围内进行；D自变量之间不能存在多重共线性。回归分析注意事项：个体间独立；足够的样本量；适宜的变量赋值；模型的评价；标准化回归系数的作用；结果报告。logistic回归与多重线性回归的区别与联系：1logistic回归分析要求因变量必须是分类资料，而多重线性回归要求因变量必须服从正态分布 2logistic回归分析对自变量无严格要求，而多重线性回归一般要求自变量是定量资料，也可是有序资料联系：均是用来分析多个自变量与一个因变量之间的关系。0表示在模型中所有自变量均为0 时，即在不接触任何潜在危险保护因

21、素条件下，效应事件优势（odds）的对数值。i 为自变量Xi 的Logistic回归系数，表示在控制其它自变量时，自变量Xi 每变化一个单位所引起效应事件优势改变的对数值。生存资料的特点：1有生存结局和生存时间两个因变量2生存时间分布不正态-非负且右偏。3、可能含有删失数据。Log-rank检验是两条或多条生存曲线比较的非参数方法之一。可用于整条生存曲线的比较，也适用于寿命表资料及多组生存率间的比较；Log-rank检验属于单因素分析方法，其应用条件是除比较因素外，影响生存率的各混杂因素在不同的组间均衡。否则，可采用Cox回归。可计算两组死亡的相对危险度(relative ratio，RR

22、)。Cox回归模型：以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响；分析带有删失生存时间的资料；不要求资料服从特定的分布类型。j的实际意义：在其他自变量固定不变的条件下，变量Xi每增加一个单位所引起的风险比的自然对数。RRi的实际意义：在其它协变量不变的条件下，变量Xi每增加一个单位所引起的风险比或相对危险度。实验设计的基本要素有哪些：研究对象、研究因素、结局指标。受试对象是处理因素作用的客体。是根据实验目的确定的研究总体。根据研究目的不同，医学研究的对象可以使人动物和植物，也可以是某个器官、细胞等生物材料。处理因素是根据研究目的的某种外部干预措施，实验效应是处理对象的反应和结

23、局，通过观察指标来实现。选择研究对象的原则：受益、代表性、均衡可比、依从性、知情同意。试验设计的原则：对照、随机化、及重复原则、实验设计时需要设立对照以保证组间的均衡性、是排除混杂因素的主要手段。随机化即每个受试对象分到实验组和对照组的机会相等。是使各对比组间在大量不可控制的非处理因素的分布方面尽量保持均衡一致性的重要措施。重复是指在相同的试验条件下进行多次研究或多次观察，以提高试验的可靠性和科学性。估计样本的意义何在？进行估计样本量估计需要确定哪些前提条件？意义：在实验设计中要对样本；例数进行估计，如果例数太少，有可能把个别现象误认为是普遍现象。把偶然性或是巧合现象当做是必然的规律，以致错误

24、的推论到总体；例数太多，会增加工作的难度，势必造成人力、物力和时间的浪费。因此保证实验结果有一定的可靠的条件下，确定最少的样本例数，可以节约人力，物力、经费。合适的样本量：是指在保证一定估计精度和检验功效的前提下，所需最少的观察单位数。估计样本含量的四要素第一类错误概率，越小，所需样本量越大；检验功效（1-）或第二类错误概率，第二类错误概率越小，检验功效越大，所需样本量越大容许误差，越小，则样本量越大，总体标准差，越小，样本量越小。标准化偏回归系数与偏回归系数有什么区别？先对应变量和自变量做标准正态转换，再建立回归方程，所得回归方程中的回归系数即标准化偏回归系数。标准化偏回归系数与其变量的计量单位无关，可以用来评价对Y的贡献大小。而偏回归系数与其变量计量单位有关，不能直接用力扭评价对Y的贡献大小，表示在其他自变量固定不变的情况下，每变化一个测量单位所引起的Y的平均改变量。

展开阅读全文

医学统计学简答题总结 必考大题总结 考前必看.doc

医学统计学简答题总结必考大题总结考前必看.doc