科研数据的分析与处理.ppt

上传人:本田雅阁 文档编号:2252785 上传时间:2019-03-11 格式:PPT 页数:77 大小:1.81MB
返回 下载 相关 举报
科研数据的分析与处理.ppt_第1页
第1页 / 共77页
科研数据的分析与处理.ppt_第2页
第2页 / 共77页
科研数据的分析与处理.ppt_第3页
第3页 / 共77页
亲,该文档总共77页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《科研数据的分析与处理.ppt》由会员分享,可在线阅读,更多相关《科研数据的分析与处理.ppt(77页珍藏版)》请在三一文库上搜索。

1、医学科研数据的整理与分析 Data Sorting and Analysis in Medical Research,李志春 新乡医学院公共卫生学院,医学科研数据的整理与分析,医学科研数据的整理与分析,第一节 科研数据的检查与整理 第二节 科研数据的描述 第三节 统计分析方法的选择 第四节 科研数据的综合分析 第五节 统计分析结果的解释与表达,一、对象的检查 二、缺项与差错 三、资料的整理,第一节 科研数据的检查与整理,一、对象的检查,首先要鉴别所调查或研究的个体是否属于所规定的调查对象或研究对象。 在进行临床研究时,要特别注意疾病诊断、分类的正确性,这对于保证研究结果的正确性是十分必要的。,

2、由于多种原因在一些调查表中经常可以见到缺项的存在,缺项的存在严重地影响到资料的完整性。 通过检查发现研究资料中的差错也是十分必要的,应对研究数据作认真的检查。,二、缺项与差错检查,专业检查 统计检查,二、缺项与差错检查,人工检查 计算机检查,二、缺项与差错检查,在周密实验设计指导下获得的实验数据,不应随意舍弃,否则实验结果的真实性与完整性就会受到破坏。,可疑数据的处理,在该数据指标服从正态分布的前提下,可用统计方法检查个别“可疑值”是否应当舍弃。 当n10时,可以用“ ”作为舍弃可疑值的准则。 当n10时,可以采用Q检验法、Dixon检验法或Grubbs检验法,进行测量值的一致性检验,从而判断

3、是否剔除可疑值。,可疑数据的处理,在对资料做好检查、核对后,就需要把杂乱无章的资料条理化,以便于进行统计计算与分析,即整理资料。,三、资料的整理,数据的计算机管理,数据库的选择 数据录入 数据核查与清理 数据加工(如编码、标准化、根据原始记录产生新的研究变量等) 数据最终锁定并进入分析,医学科研数据的整理与分析,第一节 科研数据的检查与整理 第二节 科研数据的描述 第三节 统计分析方法的选择 第四节 科研数据的综合分析 第五节 统计分析结果的解释与表达,一、统计指标 二、统计表 三、统计图,第二节 科研数据的描述表达,(一)总量指标与相对数指标 (二)平均数指标 (三)变异指标,一、统计指标,

4、统计表是用表格的方式表达统计资料和指标。在编制统计表时,应该遵循以下原则: 1.重点突出,简单明了。即一张表只包含一个中心内容,使人一目了然,不要包罗万象。 2.主谓分明,层次清楚。,二、统计表,一、统计指标 二、统计表 三、统计图,第二节 科研数据的描述表达,医学科研数据的整理与分析,第一节 科研数据的检查与整理 第二节 科研数据的描述 第三节 统计分析方法的选择 第四节 科研数据的综合分析 第五节 统计分析结果的解释与表达,(一)假设检验 (二)区间估计 (三)变量间关系的研究 (四)判别分析,一、统计分析方法概述,包括有计量资料分布类型的假设检验、计量资料方差的假设检验、计量资料均数的假

5、设检验、等级资料分布或位置的假设检验、两种属性间的独立性检验以及两种方法判断结果一致性的检验等。,(一)假设检验,(二)区间估计,概念:根据样本均数,按一定的可信度计算 出总体均数很可能在的一个数值范围,这个范围称为总体均数的可信区间。 方法: (1)u分布法 (2)t分布法,总体均数()的100(1-)%置信区间(CI): (1)已知总体标准差,按正态分布原理,计算公式为: (2)未知,n较小,按t分布原理计算: (3)未知,n足够大(如n100),按正态分布原理计算:,(二)区间估计,总体率的置信区间估计,查表法 当n50时 正态近似法 当样本含量足够大,且样本率p和(1-p)均不太小。一

6、般认为np和n(1-p)5。 pusp,(一)假设检验 (二)区间估计 (三)变量间关系的研究 (四)判别分析,一、统计分析方法概述,1.各指标之间无自变量与因变量之分 (1) 研究变量之间的相互关系有直线相关分析、典型相关分析等。 (2) 研究多个变量的内部从属关系,并寻找综合指标,降低变量的维数,其常用的方法主要有主成分分析、因子分析和对应分析。 (3) 研究多个变量内部或多个样品之间的亲疏关系有聚类分析。 (4) 研究多个变量内部的各种复杂关系有线性结构方程的协方差分析。,(三)变量间关系的研究,2.各指标之间有自变量与因变量之分 研究变量之间的依存关系有直线回归分析、曲线回归分析、多项

7、式回归分析、多元线性回归分析、概率模型回归分析、生存资料的参数模型回归分析、COX模型回归分析和对数线性模型分析。,(三)变量间关系的研究,(一)假设检验 (二)区间估计 (三)变量间关系的研究 (四)判别分析 根据一些明确分类的总体所提供的信息,对未知个体的归属进行分类的判别分析。,一、统计分析方法概述,分析目的 资料类型 设计方案 数理统计条件,选择统计分析方法需考虑的因素,二、计量资料假设检验方法的选择,例:欲了解某地城乡婴儿营养状况有无差别,测量了其血红蛋白含量,见下表。,首先要明确每次拟分析的定性变量个数是多少? 其次要弄清定性变量的属性、列联表中频数的多少以及资料的收集方式。,三、

8、计数资料假设检验方法的选择,每次只分析两个变量时,可将资料整理为22表、2k表和RC表的形式。常用的统计分析方法有Pearson 2检验、校正2检验、配对计数资料的McNemar 2检验、Fisher精确概率法检验、秩和检验、Ridit分析、等级相关分析、典型相关分析、一般趋势和线性趋势检验、Kappa检验等; 如果需要同时分析研究的定性变量的个数3时,常用的统计分析方法有加权2检验、Mantel-haenszel 2检验、logistic回归模型和对数线性模型等。,在计数资料的分析过程中,对于RC表形式资料的分析是一个难点,存在的问题比较多。 根据二维列联表中两个分组变量的类型以及分析的目的

9、,对RC表资料进行分类,因为不同类型的RC表资料和不同的分析目的,就有不同的分析方法。,RC表检验方法的选择,双向无序RC表资料及其统计分析方法的选择 单向有序RC表资料及其统计分析方法的选择 双向有序且属性不同的RC表资料及其统计分析方法的选择 双向有序且属性相同的RC表资料及其统计分析方法的选择,RC表检验方法的选择,对单向有序RC表的两个分组变量,其中一个是无序的(实验分组变量不同药品);另一个却是有序的(指标分组变量处理效果)。此时不适合选用2检验分析资料,因为2检验与“疗效”的有序性之间没有任何联系,故应采用与“有序性”有联系的秩和检验或Ridit分析。,RC表检验方法的选择,对双向

10、有序且属性不同的RC表的两个分组变量,如年龄组别与某种疾病发生程度都是有序的,但属性不同,此时,也不适合选用2检验分析资料,因为2检验与两个变量的有序性之间没有任何联系,应改用与两个变量的“有序性”有联系的等级相关分析、典型相关分析或线性趋势检验。,RC表检验方法的选择,对双向有序且属性相同的RC表的两个分组变量,如两种方法对某种疾病发病程度诊断结果,它们都是有序的,且属性也相同。此时,研究的目的是要考察两种测定方法的测定结果之间是否具有一致性,故仍不适合选用一般的2检验分析资料,应采用与两个变量的有序性有联系的一致性检验或称Kappa检验,还可以用特殊的模型分析方法。,RC表检验方法的选择,

11、医学科研数据的整理与分析,第一节 科研数据的检查与整理 第二节 科研数据的描述 第三节 统计分析方法的选择 第四节 科研数据的综合分析 第五节 统计分析结果的解释与表达,对于同一份统计资料,由于研究目的的不同,处理方法不同,可以从多个方面进行分析,此即“综合分析”。 通过对数据资料的综合分析,可以充分利用、挖掘资料所内涵的信息。,第四节 科研数据的综合分析,【实例】某医师将20名失眠患者随机等分为两组,一组服用安眠药,另一组服用安慰剂,研究者要评价某安眠药的催眠效果,治疗失眠前后的睡眠时间及其差值结果见表,试作统计分析。,平行组对照设计分析思路,试验组:疗前 疗后 = 差值 同质性比较 组间比

12、较 对照组:疗前 疗后 = 差值,疗前是否均衡可比? 两组疗前的比较 每种药物是否有疗效? 各组疗效的组内比较 疗效间有没有差别? 疗效差别的比较 本例分析中的三个步骤是环环相扣的。,平行组对照设计分析思路,试验组:疗前 疗后 = 差值 同质性比较 组间比较 对照组:疗前 疗后 = 差值,【实例】对一组胃癌病人先后用两种泌酸刺激剂,然后分别测定其最大酸排量(mEq/h),以分析两药的效果,见表。,配对资料 t 检验分析。 按= 0.05 水准拒绝H0,接受H1,差别有统计学意义,胃癌病人用加大组织胺后的最大酸排量与用五肽胃泌素后的最大酸排量间差别有统计学意义。,五肽胃泌素引起的最大酸排量是加大

13、组织胺的百分之多少?,胃癌病人用加大组织胺后的最大酸排量比用五肽胃泌素者平均多1.30(95%CI:1.021.57)mEq/h。而两次测定值之间回归分析显示:若加大组织胺引起的最大酸排量升高1mEq/h,则五肽胃泌素引起者将平均递升0.90(95%CI:0.880.92)mEq/h,即五肽胃泌素引起的最大酸排量只是加大组织胺的90%。,综合分析的结论,针对差值分析的配对t检验与阐明变量线性依存关系的回归分析相结合,假设检验与区间估计互补,使所得结论更加丰富、更加具体。,例 研究放射线对嗜酸粒细胞的影响。 对一批同一种系的体重接近的小白鼠,以完全随机抽样方法抽取了11只小白鼠,在注射肾上腺素前

14、、后二次测定其嗜酸粒细胞数,然后用一定剂量的放射线照射,经过24小时,再重复上述实验,每一只小白鼠均有4个测定值。,二、进行综合分析的方法,1.单纯肾上腺素的作用 放射线照射之前,测定嗜酸粒细胞数(106个/L),然后注射一定剂量的肾上腺素,再测其嗜酸性粒细胞,将、按自身对照设计作t检验(t=3.767,P0.01)。 2.照射放射线后肾上腺素的作用 在照射一定剂量的放射线后,重复上述实验,将、按自身对照设计作t检验(t=6.921,P0.001)。,综合分析,3.单纯照射放射线的作用 将尚未注射肾上腺素时,照射放射线前、后的测定值,即、按自身对照设计作t检验(t=4.219,P0.01)。

15、4.照射放射线是否改变肾上腺素的作用 将放射线照射前的差值与放射线照射后的差值,按自身对照设计作t检验(t=0.849,P0.40)。,综合分析,1.小白鼠受到放射线照射后,血液中嗜酸性粒细胞减少; 2.小白鼠注射肾上腺素后,血液中嗜酸性粒细胞减少; 3.小白鼠受放射线照射24小时内,并未改变肾上腺素降低嗜酸性粒细胞数的作用和程度。,结论,例7.2 下面就是该科研资料较为完整的背景介绍:某研究者收集到103例冠心病患者和100例正常对照者的多项指标,其中有组别(G)、性别(X1)、年龄(X2)、高血压史(X3)、吸烟史(X4)、胆固醇含量(X5)、甘油三酯含量(X6)、低密度脂蛋白含量(X7)

16、、密度脂蛋白含量(X8)、脂蛋白(X9)、载脂蛋白A1含量(X10)、载脂蛋白B含量(X11)、基因型Xbal(X12)、基因型EcoRl(X13)、用药情况(X14),资料的格式见表7.5所示。,(1)对冠心病人而言,直接分析某种基因型(X12或X13)取不同水平时7项血脂指标的均值和均值向量之间的差别有无显著性意义? (2)对冠心病人而言,同时分析“性别、吸烟史、高血压史、某种基因型(X12或X13)”对7项血脂指标的均值和均值向量的影响有无显著性意义? (3)对冠心病人而言,在设法排除“年龄、性别、吸烟史、高血压史和用药情况”等因素影响的前提下,分析某种基因型(X12或X13)取不同水平

17、时7项血脂指标均值之间的差别有无显著性意义?,(4)对冠心病人而言,试对7项血脂指标间的内部从属性做客观评价。 (5)对冠心病人而言,试对7项血脂指标间的亲疏关系做客观评价。 (6)对冠心病人而言,假定病情轻重可通过7项血脂指标很好地反映出来,试根据7项血脂指标的数据,将他们划分成3组,以便做出关于病情“轻、中、重”的评判,可有的放矢地采取不同方案对不同病情的患者进行治疗。,(7)利用正常人与冠心病人的7项血脂指标数据,建立一种方法,用来对一个怀疑患有冠心病的就诊者进行辅助诊断。 (8)利用正常人与冠心病人的全部资料,建立一种方法,筛选出冠心病的危险因素,并且,当各危险因素在其取值范围内分别取

18、某确定值时,预报某人患冠心病的概率有多大。,医学科研数据的整理与分析,第一节 科研数据的检查与整理 第二节 科研数据的描述 第三节 统计分析方法的选择 第四节 科研数据的综合分析 第五节 统计分析结果的解释与表达,第五节 统计分析结果的解释与表达,1.要正确理解假设检验的结论。 2.结论不能绝对化。 3.在解释统计分析结果时,必须结合医学实际。,(1)资料未作任何统计处理,仅根据实际数据的大小,凭经验做出某组与另一组之间的差别有显著性的结论; (2)虽然做了统计处理,但未交代所选用的统计分析方法,仅仅给出了P 值; (3)做了统计学处理,也交代了所用统计分析方法,并给出了P 值,未给出统计量的具体值。,结果分析,统计分析表达的常见错误,(1)所选用的统计分析方法; (2)根据样本数据计算所得的检验统计量的具体取值及其自由度; (3)假设检验的具体P 值(写出P 值的确切范围,如0.05P0.02); (4)有关总体参数的95%置信区间。,结果分析,统计分析结果的表述要求,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1