多因素分析.doc

上传人:scccc 文档编号:14794529 上传时间:2022-02-20 格式:DOC 页数:17 大小:330KB
返回 下载 相关 举报
多因素分析.doc_第1页
第1页 / 共17页
多因素分析.doc_第2页
第2页 / 共17页
多因素分析.doc_第3页
第3页 / 共17页
多因素分析.doc_第4页
第4页 / 共17页
多因素分析.doc_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《多因素分析.doc》由会员分享,可在线阅读,更多相关《多因素分析.doc(17页珍藏版)》请在三一文库上搜索。

1、多因素分析研究多个因素间关系及具有这些因素的个体之间的一系 列统计分析方法称为多元(因素)分析。主要包括:多元线性回归( multiple linear regression)判别分析(disoriminant analysis)聚类分析(cluster analysi9主成分分析(principal component analysis)因子分析(factor analysis)典型相关(canonical correlation)logistic 回归(logistic regression)Cox 回归(COX regression)1、多元回归分析( multiple linear r

2、egression)回归分析是定量研究因变量对自变量的依赖程度、分析变量之间 的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变 量的线性依存关系时,其模型称为多元线性回归。函数方程建立有四 种方法:全模型法、向前选择法、向后选择法、逐步选择法。全模型法其数学模型为:y八凶2x2pXp ;式中y为因变量,ex?xp为p个自变量,0为常数项,为待定参数,称为偏回归系数(partial regression coefficien)匕订表示在其它自变量固定不变的情况下,自变量Xi每改变一个单位时,单独引起因变量 Y的平均改变量。;为随机误差,又称残差(residual),它是在Y的变化中不

3、能为自 变量所解释的部分例如:1、现有20名糖尿病病人的血糖(y,mmo/lL )、胰岛素 (xmU/L )及生长素(X2g/L )的数据,讨论血糖浓度与胰岛素、 生长素的依存关系,建立其多元回归方程。逐步回归分析 (stepwise regression analysis)在预先选定的几个自变量与一个因变量关系拟合的回归中,每个 自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有 统计学意义,有些没有统计学意义。有些研究者对所要研究的指标仅 具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变 量中,挑选出对因变量有显著性意义的因素。一个较理想的回归方程,应包括所有对因变量

4、作用有统计学意义 的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归 方程较理想的方法之一是 逐步回归分析(stepwise regression analysi)基本原理:按这个自变量在方程中对因变量作用的大小,由大到 小依次引入方程。每引入一个自变量都要对回归方程中每一个已引入 的(包括刚被引入的)自变量的作用作统计意义检验,若发现一个或 几个已被引入的自变量的作用无统计学意义时,即行剔除。每剔除一 个自变量后,也要对留在回归方程中的自变量逐个作统计学意义检验。 如果发现方程中还存在作用无统计学意义的自变量时,也予以剔除, 直至没有自变量可引入,也没有自变量可从方程中剔除为止。最

5、优方程应是: y二:o :低pXp :对y有显著性作用的自变量全部到回归方程中。凡是对y没有显著性作用的自变量都不被引入方程。例如:1、讨论中学生的肺活量的影响因素,观察了 10名女中学生的体 重(Xi, kg)、胸围(X2, cm)、胸围之呼吸差(X3, cm)及肺活量(Y, ml)。2、某研究协作组调查煤矿工人II期高血压患者40例,同时调查 了工作面的污染程度(Xi )、井下工作时间(X2)、每人的体重(X3)、 吸烟年限(X4)、饮酒年限(X5)和收缩压(y),欲分析影响煤矿工人 II期高血压患者收缩压高低的主要因素。3、为探讨影响差等生学习成绩的因素, 某儿科医生调查了某学校 六年级

6、各班倒数第五名以内学生的平均成绩 (y),并测定了智商(Xi )、 血清铁(X2)、血清酮(X3)、日均热卡(X4)、日均食入蛋白量(X5)、 头围(X6 )和月人均收入(X7)2、判别分析(discrim inant an alysis)根据已掌握的一批分类明确的样品,制定出一个分类标准用以判 断以后新样品的归类。在医学研究中经常遇到根据某病人的各种症状、 体征、化验结果等来判定病人患的什么疾病,如:根据骨科的X光片的各种特征判断病人属于何种骨瘤?体育选材中根据运动员的体形、 运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队 继续培养等。判别分析在医学领域的主要用途是:1、疾病诊

7、断: 用判别分析的方法诊断疾病又称为计量诊断。包 括临床诊断、X线诊断、心电图诊断、超声波诊断、脑电图诊断等。2、疾病预报:流行病预报、某些疾病(心肌梗死、中风)的早期 预报。3、预后估计:某些疗法的疗效估计,某些恶性肿瘤患者的生存期 估计等。4、疾病的病因学估计: 研究引起疾病的原因,并分析其主要影响 因素。判别分析:要求Y变量二分类或多分类的属性变量。分别用Fisher 和Bayes准则进行计算。同时根据样本中个体的症状、体征选用多元逐步判别分析的方法, 来判断病人患的什么疾病。其判别函数为:Z = b1x1 + b2x2 + b3x3 .+ bkxk对判别函数在实际应用中的判别能力要进行

8、检验判别临界值:丫。二卜 y a n2 y b /ni n2 1且:-y a Yo y b所以:若YYo判为A类;若YYo判为B类可以计算各指标的贡献率,进行回代检验其符合率。例如:1、有健康人 10 名,心肌梗死病人 6 名,分别进行心电图检查 得到三个指标 X1、X2、X3 。建立这两类人的判别式,以次判别新的就 诊患者是否为心肌梗死病人。2、对正常人和白血病人进行血清学方面的研究,用高分辨核磁 共振谱仪分析a峰形,以a峰的高度(XJ和峰腰(X2)的宽度作为观察 指标,采集了 13名白血病人和11名献血员作为健康人的血清的 a峰 形。3、现有已知分类的健康人 11 人,硬化症患者 7人,冠

9、心病患者 5人,这 23 人的心电图的 5 个指标测量数据,建立判别方程。3、logistic 回归分析多元线性回归要求 y 是呈正态分布的连续型随机变量。医学中常 见这样的试验:动物服药后是生(假设其值为 1)还是死(假设其值 为 0),或是发病( 1)还是未发病( 0)等。当因变量取值为( 0, 1), 自变量可能是分类变量,也可能是连续变量时,用线性回归分析的方 法进行处理是不合适的,应选用 Logistic 回归。Logistic 回归属于概率型回归,用来分析某类事件发生的概率与 自变量之间的关系。 适用于因变量为二值变量(或多分类)的情形。基本概念:因变量的预测值在 01 之间。如根

10、据冠心病病人的饮 食特点、吸烟史、生活的方式、得病的类型等数据资料, 建立一个 logistic 回归方程来预测病人的冠心病的可能性。数学模型:y 二 InPj/1Pj La bjXj式中:Pj是在条件Xj二Xij,X2j,X3j Xmj下,某事件发生的概率,1-Pj是该事件不发生的概率。其中,m是自变量 的个数。a是截距,bi是待估计的参数。Logistic回归方程的曲线为S型,预测值最大值趋近1,最小值趋 近0。logistic回归方程的另一种表达形式:Pexp通过变换可1 + exp y )J以得出P与多兀变量Xi间的数学表达式:pexp(a +b X)P 1 exp(a 亠二 bi x

11、i)11exp(a 亠bi xi)例如:1、某医生研究哪些指标可以判断糖尿病患者是否动脉硬化,将临床症状颈总动脉中层厚度imt0.8mm或有斑块定义为动脉硬化,记为 因变量type =1,非硬化imt 0.8mm且无斑块,记为因变量type =0。 选择自变量为年龄(age)、尿白蛋白(ALB )、体重指数(BMI )、胰 岛素敏感指数(ISI)、收缩压(SBP)、甘油三脂(TG)、胆固醇(CHO)、 糖尿病病程(DURA )。2、某医院为研究医院内尿路感染的主要危险因素,回顾调查了某年三个月份在住院期间实施保留导尿的 200名患者,分别记录了危险因素变量名定义性别Xi女=0,男=1年龄(岁)

12、X230=0, 30 =1, 50=2, 70=3插管前住院时间(天)X33=0, 3 =1, 10=2, 20=3导尿方式X4闭式=0,开放式=1导尿期间无抗生素持续冲洗X5否=0,是=1留置导尿时间X63=0, 3 =1, 10=2, 20=3感染前有无输血史X7无=0,有=1感染前有无应用免疫抑制剂X8无=0,用=1插管前血浆肌酐水平X980=0, 80 =1, 170=2有无糖尿病X10否=0,是=1尿路感染Y未感染=1,感染=0分析可能在医院内尿路感染的危险因素4、比例风险模型一COX回归常用统计描述和统计推断的方法有: 分位数、中数生存期、平均数、 生存函数古迹、判断生存时间分布、

13、非参数检验、寿命表法、log-ra nk检验(对数秩检验)等。这些方法已经系统地应用在医学的医疗评价和 预后的因素分析中。医学临床生存资料有别于其他资料,特别是医学临床随访资料很难 用一般统计方法来处理多种因素对生存时间序列的影响。资料的特点是:1危险度的变化规律种类多且难以确定。2、资料中存在失访(截尾)数据。3、同是考虑多个变量(连续的或离散的)影响难以控制。非参数可以解决前两个问题,参数法可以解决后两个问题。所以 实际应用中有很大的局限性。Logistic模型中对任一个观察对象的失效 处理都是相同的,无论失效发生在随访期的开始或结束,所以当分析 变量与失效的关系时且需要考虑失效时间的作用

14、时,logistic回归模型 就不完全适用了。而任一变量对失效的作用完全独立于随访期的长短, 直接影响结论的可靠性和稳定性。1972年英国生物统计学家 D.R.Cox提出半参数的比例风险模型Cox回归模型(Cox regression mode), 1975年由油料新的补充。Cox模型是将生存时间和因素间的关系用回归方式来表示,主要 解决多因素(如年龄、职业、吸烟、饮酒、病情、治疗方法等)对生 存期(恢复期)的影响。对于每一个研究的病人除去要考察的因素外, 必须有生存时间变量(t)和结局变量(d)。风险函数为:h(t) = h)(t)exp(bx1 b?X2 6x3bpXp)h(t)为风险函数

15、,又称风险率或瞬间死亡率。h0(t)为基准风险函数,是与时间有关的任意函数。例如:1、某省肿瘤医院调查1991-1994年间经手术治疗的66例大 肠癌患者的资料,对可能影响大肠癌术后的临床病理因素进行分析, 以探讨这些因素病理因素对大肠癌术后的综合影响。危险因素变量名定义性别乙女=0,男=1年龄(岁)Z240=1,4059 =2, 60=3组织学分类Z3乳头状腺癌=0,管状腺癌=1肿瘤大小(cm)乙-6=0,其它=1Dure分期Z5A=1 , B=2, C=3, D=4细胞增殖抗原(PCNA)Z655% =0, - 55%=1淋巴管侵润Z7无=0,有=1血管侵润Z8无=0,用=1手术到观祭结束

16、Y实际天数结束时是否死亡D生存=0,死亡=12、研究天花粉注射治疗绒癌疗效的试验,将16只体表接种成功的裸鼠分为4组,其中一组作为对照,其余三组分别注射天花粉、甲药和 乙药,得到如下数据:试作 Cox分析。危险因素变量名定义带瘤天数Xi天数瘤体大小X2天花粉治疗X3无=0,有=1甲药治疗X4无=0,有=1乙药治疗X5无=0,有=1维生素X6不用=0,用=1生存天数day实际天数结局D生存=0,死亡=1附例题:文件名 “sars 建立永久数据集libname ld:;data a;set l.sars3;run;读出数据集,选择确诊和发烧病人data a;set a1;if group= 2 t

17、he delete;run;逐步判别分析:proc stepdisc method=stepwise sle=0.05 sls=0.05; class group;var cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b; quit;将逐步判别筛选出的变量作回代:proc discrim ;class group;var h5n1b entb infb2b sars2b sars3b mpnb sars1b;*var infb2b cpnb h

18、5n1b piv3b rsvnbb sars3b;quit;计算疑似与发烧病人的逐步 logistic 回归:data b;set l.sars3;if group=1 the delete;run;data b1;set b;if group=2 then groupn=1;if group=3 then groupn=0;proc logistic descending;model groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sar

19、s3b/ clodds=pl sle=0.15 sls=0.15;/*model groupn= cpnb entb h1n12 h5n1b infab infbb infb2b mpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b;*model groupn= cpnb entb h1n12 h5n1b infab infbb infb2b mpnb piv1b piv3b rsvnab rsvnbb / selection=stepwise clodds=pl sle=0.15 sls=0.15;*/quit;计算确诊和发

20、烧病人的 logistics 回归分析: data c;set l.sars3;if group=3 then delete;run;data b1;set c;if group=1 then groupn=1;if group=2 then groupn=0;proc logistic descending;model groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b/ clodds=pl sle=0.15 sls=0.15;

21、*model groupn= cpnb entb h1n12 h5n1b infab infbb infb2b mpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b;*model groupn= cpnb entb h1n12 h5n1b infab infbb infb2b mpnb piv1b piv3b rsvnab rsvnbb / selection=stepwise clodds=pl sle=0.15 sls=0.15;selection=stepwiseselection=stepwisequit;*/1BAC

22、KGROUND274.5140.514SAMPLE1疑似2961.0783241961.39501825SAMPLE2疑似2961.0783242091.48754436SAMPLE3疑似2060.7504551951.387947SAMPLE4疑似2300.837887223.51.59074758SAMPLE5疑似240.50.876138245.51.74733169SAMPLE6疑似2510.914391781.266904710SAMPLE7疑似224.50.817851369.52.629893811SAMPLE8确诊3901.4207652511.786477912SAMPLE9

23、确诊219.50.7996363642.5907471013SAMPLE10确诊2280.8306012932.085409Logistics (B类与C类病人拟和)Classification TablePredictedTYPE%Observed01Step 1TYPE0454052.912210682.8Overall Perce ntage70.9Step 2TYPE0493657.612310582.0Overall Perce ntage72.3Step 3TYPE0523361.212210682.8Overall Perce ntage74.2Step 4TYPE0582768

24、.211910985.2Overall Perce ntage78.4a The cut value is .500Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1INFB2B-3.673.58239.8351.000.025Con sta nt4.451.66544.8591.00085.732Step 2INFBB-.775.2589.0561.003.461INFB2B-3.733.60138.5551.000.024Con sta nt5.804.84047.7841.000331.537Step 3INFBB-1.153.308

25、13.9981.000.316INFB2B-4.084.63840.9961.000.017PIV1B2.589.69313.9381.00013.315Con sta nt3.2391.0419.6861.00225.504Step 4INFBB-1.236.32114.8691.000.290INFB2B-4.524.69842.0311.000.011PIV1B2.961.73316.3301.00019.315RSVNAB2.355.71610.8121.00110.541Con sta nt.9741.245.6121.4342.648a Variable(s) entered on

26、 step 1: INFB2B.b Variable(s) en tered on step 2: INFBB.c Variable(s) en tered on step 3: PIV1B.d Variable(s) en tered on step 4: RSVNAB.Logistics (疑似与发烧病人拟和)包括SARS病毒Classification TablePredictedTYPEPerce ntage CorrectObserved01Step 1TYPE0301173.2178892.6Overall Perce ntage86.8Step 2TYPE036587.81392

27、96.8Overall Perce ntage94.1Step 3TYPE038392.7129397.9Overall Perce ntage96.3Step 4TYPE037490.2149195.8Overall Perce ntage94.1Step 5TYPE038392.7139296.8Overall Perce ntage95.6Step 6TYPE040197.6119498.9Overall Perce ntage98.5a The cut value is.500Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1INF

28、B2B-8.8101.52933.1791.000.000Con sta nt10.4491.74635.8121.00034524.092Step 2H5N1B8.7922.24115.3871.0006582.400INFB2B-12.3192.36027.2541.000.000Con sta nt6.1682.1048.5961.003477.220Step 3H5N1B8.1212.41511.3071.0013364.195INFB2B-13.1392.86321.0651.000.000PIV3B5.5582.0557.3121.007259.262Con sta nt1.774

29、2.559.4801.4885.893Step 4H5N1B9.6572.92310.9141.00115629.817INFAB-5.8542.6854.7531.029.003INFB2B-12.0862.82518.3021.000.0006.0632.2857.0441.008429.842Co5.1423.4222.2591.133171.122H9.7953.2129.2991.00217939.554-10.7764.1186.8481.009.000IN-15.5284.20413.6431.000.0006.3492.7555.3101.021571.8296.9452.97

30、65.4441.0201037.668Co4.8443.4631.9571.162126.979H9.6683.5447.4441.00615808.748-16.2137.4314.7601.029.000IN-17.7405.06612.2641.000.0005.4523.0603.1741.075233.1159.1654.0125.2191.0229555.279SA6.2464.0282.4051.121515.751Co3.5364.247.6931.405a Variable(s) entered on step 1: INFB2B. b Variable(s) entered on step 2: H5N1B.c Variable(s) en tered on step 3: PIV3B. d Variable(s) en tered on step 4: INFAB.e Variable(s) en tered on step 5: PIV1B. f Variable(s) en tered on step 6: SARS2B.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1