基于Bayes和组合赋权法的乳腺癌病的判别分析数学建模论文.doc

资源描述

《基于Bayes和组合赋权法的乳腺癌病的判别分析数学建模论文.doc》由会员分享，可在线阅读，更多相关《基于Bayes和组合赋权法的乳腺癌病的判别分析数学建模论文.doc（47页珍藏版）》请在三一文库上搜索。

1、第八届数学建模竞赛论文题目：基于Bayes和组合赋权法的乳腺癌病的判别分析（B）摘要：本文主要基于Bayes判别分析和组合赋权赋权法，通过对影响患乳腺癌病的指标进行分析研究来评估一个人患乳腺癌风险高低。问题一：首先，对数据进行预先分析，找出单个指标与患乳腺癌病之间的影响关系；然后基于事先的分析，我们通过组合赋权法，确定各个指标对于患乳腺癌病影响的大小即是权重大小，分析出重要指标；最后通过Bayes判别分析，把患病与不患病的人分为两类，综合考虑各个指标的综合影响，建立评估模型。问题二：基于问题一的数学模型，我们首先计算出患乳腺癌的概率与不患乳腺癌的概率，再用回代法求出模型的误判率，给出患病

2、风险的评估。问题三：分别计算加上变量11前后变量10的权重与变量10，11患乳腺癌风险权重之和是否有变化，再求出变量之间的的相关系数，分析各变量之间的影响关系；最后通过聚类分析优化指标。问题四：基于我们所建立的评估模型，重点分析一些有关饮食的指标对于患乳腺癌病的影响，从而给出我们的预防建议。关键词： Bayes判别变异系数赋权 Critic赋权回代法、相关系数参赛编号（由组委会填写）1、问题的重述乳腺是由皮肤、纤维组织、乳腺腺体和脂肪组成的，乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤。乳腺癌中99%发生在女性，男性仅占1%。目前乳腺癌已成为威胁女性身心健康的常见肿瘤。全球乳腺癌发病率自20世纪

3、70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家，但不宜乐观，近年我国乳腺癌发病率的增长速度高出高发国家12个百分点。据国家癌症中心和卫生部疾病预防控制局2012年公布的2009年乳腺癌发病数据显示：全国肿瘤登记地区乳腺癌发病率位居女性恶性肿瘤的第1位，女性乳腺癌发病率（粗率）全国合计为42.55/10万，城市为51.91/10万，农村为23.12/10万。附件给出了美国关于乳腺癌的一项调查数据，调查样本为年龄在25-50岁之间的3145名女性，调查信息包括年龄、贫困指标、家族史、饮食习惯等可能与乳腺癌相关的各项指标，共11列，具体如下：列变量备注1

4、Breast cancer1=yes, 0=no2Age/25年龄/253Poverty index ratio当年家庭总收入/贫困线基准收入4Body mass index/100身高体重指数为体重与身高的平方之比5Alcohol是否饮酒：1=yes, 0=no6Family history乳腺癌家族史：1=yes, 0=no7Age at menarche初潮年龄：不超过12者为1，其余为08Menopausal status绝经状态：1=pre-, 2=peri-, 3=post-menopausal9Race种族：1=白人，2=其他10Saturated fat/100摄入饱和脂肪量/

5、10011Calories/5000摄入卡路里量/5000其中，第10和11列变量是饮食习惯变量，是被调查者回忆出调查时刻前24小时的进食情况，再推算而得。请回答以下问题：1、请结合附件数据（见文件dataset.xls），分析变量2至10与乳腺癌的关系，给出数学模型。2、基于你的数学模型，对女性患乳腺癌风险进行评估。3、有文献指出，加入变量11时，会使得变量10对患乳腺癌风险影响的显著性发生变化。请围绕这一现象展开探讨，分析各变量之间的影响关系。4、结合你的研究结果，给出一篇关于饮食健康与乳腺癌预防的建议报告。2、问题的分析从题目要求可以得知，目的就是建立评价模型，不进可以对所给出

6、的数据进行判别是否患有乳腺癌，还能反映出指标的影响力的大小。由于给定的数据可分为2类，一类为患病人的数据，另一类为，没有患病的人的数据。对于问题一：首先，对数据进行预先分析，找出各个指标与患乳腺癌病之间的影响关系，然后基于实现分析，我们通过组合赋权法，确定各个指标对于患乳腺癌病影响的大小即是权重大小，分析出重要指标。最后通过Bayes理论，综合考虑各个指标的综合影响，给出整体影响的数学模型。对于问题二：基于问题一的数学模型，我们计算出患乳腺癌的概率与不患乳腺癌的概率，若患病概率大于不患病概率则患乳腺癌风险较大，反之，亦然。最后用回代法求出模型的误判率。再分析出一些重要指标。问题三：分别计算加

7、上变量11前后变量10的权重与变量10，11患乳腺癌风险权重之和是否有变化，再求出变量之间的的相关系数，分析各变量之间的影响关系。然后，我们可以根据变量之间的相关系数，通过聚类分析，可对指标进行进行进一步优化。问题四：基于我们所建立的评估模型，重点分析一些指标对于患乳腺癌病的影响，从而给出我们的预防建议。3、模型假设 1）在该组数据中除了列出来的因素之外的内在或环境因素均视为所有人都处于同等水平。2）各个变量不能存在多重共线性。3）每个变量在各类中的取值存在显著差异。4）在实际生活中，改组调查数据是动态的受到多种其他因素所影响，这里忽略。 5）这些数据的微小波动，认定数据是恒定的。 6）认定

8、被调查人给出的数据是真实的。 7）认定这些数据具有时效性，且在有效范围之内。4、符号说明 1 G1：患病的总体 2.G2：没有患病的总体 3.1，2为各总体对应的协方差矩阵 4.P1，p2为各总体对应的先验概率 5.1，2为各总体对应的均值向量 6. 第i条数据分别与两个总体的的广义距离函数 7.第i个人的属于第j类总体的后验概率 8.=（，）为第i个人的数据记录 9.W1加入条件11前各因素的权重向量 10.W2加入条件11后各因素的权重向量 11.Vi是第i项指标的变异系数、也称为标准差系数5、模型建立： 5.1问题一的解决： 5.1.1变量分析：首先，通过作图可知，我们可以了解患病的人

9、数只占所有人群的比例：然后，我们通过患病的人群可以分析单个变量与患乳腺癌病的显性关系如下：表5-1 摄入饱和脂肪量/100的影响患病人健康人摄入饱和脂肪量/1000.1888360.236814表5-2 当年家庭总收入/贫困线基准收入的影响Healthy peopleUnhealthy peoplepoverty index ratio2.5905543.015593表中可以发现当年家庭总收入/贫困线基准收入对患乳腺癌病有影响。表 5-3 身高体重指数的影响Healthy peopleUnhealthy peopleBody mass index/1000.2510410.251091表中可以

10、发现身高体重指数对于患病的风险影响不大。患病人群中饮酒比例家族病史的影响患病人群中绝经状态的比例患病人群中初潮年龄的比例 5.1.2组合赋权： 5.1.2.1 变异系数权数对多指标综合评价而言，指标体系中的各指标所包含的信息量是不同的，即各指标对被评价单位的分辨能力是有区别的。某些指标在各被评价单位之间差异较大，其分辨能力较强，包含的信息量就多；而某些指标在各被评价单位之间差异较小，其分辨能力较弱，包含的信息量就少。一般来说，如果某指标包含的信息量越多，它在综合评价中的作用就越大，理应赋予较大的权数；反之，在综合评价中的作用就小，应赋予较小的权数，特别地，如果某指标在各被评价单位之间根本没有

11、差异，即从评价角度来看不包含任何信息，它在综合评价中将毫无作用，当属被剔除之列，理应赋予零权。基于上述认识，信息量的大小反映了各指标变异程度上的差异。因此，如果将这种差异加以量化，就得到了相应的信息量权数。方差（标准差）是衡量各指标变异程度的有效尺度。但由于各指标度量单位的不同和数量级数上的差异，各指标的方差（标准差）不具可比性。因此，采用各指标的变异系来进行度量就能解决此问题。如果将各指标的变异系数归一化处理，就得到反映各指标变异程度大小的信息量权数。具体作法如下：设指标体系包含 m 个指标，X1，X2，Xm；有 n 个被评价单位。令则各指标的变异系数为：将 Vi归一化处理，即得各指标

12、的信息量权数 Wi为：变异系数法是一种动态的客观赋权方法，指标权数随着评价客体范围、评价指标组合的不同而发生变化。变异系数法赋权除了具有明显的动态性之外，还具有简便易懂等特点，是一种常用的客观赋权方法，在上市公司经营业绩综合评价中具有很强的实用性。但是变异系数赋权法容易受极端值的影响，如果某指标数据存在极端值，对变异系数影响较大，这样将会夸大该指标在综合评价中的作用，所以，在应用变异系数法进行赋权时，必须首先剔除掉极端值。5.1.2.2 CRITIC 法赋权CRITIC （ Criteria Importance Through Intercriteria Correlation ）法是

13、由Diakoulaki 提出的另一种客观权重赋权方法。它的基本思路是确指标的客观权数以下述两个基本概念为基础24：一是信息量大小。它表示了同一个指标各个评价单位之间取值差距的大小，以标准差的形式来表现，即标准差的大小表明了在同一个指标内各单位取值差距的大小。标准差越大各方案之间取值差距越大。二是评价指标之间的独立性。指标之间的独立性是以指标之间的相关性为基础，如两个指标之间具有较强的正相关，说明两个指标独立性较低。第 j 个指标与其它指标的独立性的量化指标为：，其中，为评价指标 i 和 j 之间的相关系数。各个指标的客观权重确定就是以信息量和独立性来综合衡量的。设表示第 j 个评价指标所

14、包含的信息量和独立性的综合度量，则可表示为：越大，第 j 个评价指标所包含的综合信息越大，该指标的相对重要性也就越大，所以第 j 个指标的客观权重为： 5.1.2.3组合赋权方法研究目前,国内外许多专家学者从不同的角度,提出了各种确定指标权数的方法，由于各种赋权方法各有优缺点,并且赋权的结果都只是对客观未知的真正权数的一个估计,于是人们从分析转向综合,在已知各种赋权法结果的基础上,提出组合赋权法。组合赋权法是运用系统思想而提出的研究指标权数的一种方法。简单算术平均法合成如果认为各种赋权方法没有优劣之分，则采用简单算术平均法合成，计算公式为 :其中 m 为赋权方法的种类数。表5-4为组合赋权

15、法求出的结果：表5-4为组合赋权结果Age/25Poverty index ratioBody mass index/100AlcoholFamily historyAge at menarcheMenopausal statusRaceSaturated fat/1000.03620.0732 0.00640.01410.52630.22670.06730.03210.0176 由表可知，是否饮酒，家族遗传病史，与初潮年龄与患乳腺癌风险有较大关系。5.1.3bayes判别：由数据可以算出先验概率为与距离判别的区别为广义平方距离函数后验概率为当1，2及1，2未知时，以相应的估计得； 5

16、.2 问题二的解决： 5.2.1患病风险评估结果：部分计算结果如表5-5所示表5-5 后验概率判别结果患病后验概率P1无病后验概率P26.98357E-050.9999301640.0025179780.9974820220.0006258860.9993741140.0015368650.9984631355.75962E-050.9999424044.16529E-060.9999958350.002630080.997369920.0159689190.9840310810.000361590.99963841P1P2则判定患乳腺癌风险高，P1C1(i,2) k=k+1; endend

17、t=0;for i=1:59 if(C2(i,1)C2(i,2) t=t+1; endendl=(k+t)/3145程序3clc;clear; a1=xlsread(dataset.xlsx,B1:B3145);a2=xlsread(dataset.xlsx,C1:C3145);a3=xlsread(dataset.xlsx,D1:D3145);a4=xlsread(dataset.xlsx,E1:E3145);a5=xlsread(dataset.xlsx,F1:F3145);a6=xlsread(dataset.xlsx,G1:G3145);a7=xlsread(dataset.xlsx,

18、H1:H3145);a8=xlsread(dataset.xlsx,I1:I3145);a9=xlsread(dataset.xlsx,J1:J3145);A=a1,a2,a3,a4,a5,a6,a7,a8,a9;E=A;%for i=1:9 C(i)=sum(A(:,i)/3145;endp=0;for i=1:9 for j=1:3145 p=p+(A(j,i)-C(i)2; end D(i)=p/3145; p=0;endfor i=1:9 V(i)=sqrt(D(i)/C(i);endfor i=1:9 w1(i)=V(i)/sum(V);end%critick=0;for i=1:9

19、 for j=1:3145 k=k+(1-A(j,i); end H(i)=k*sqrt(D(i); k=0;endfor i=1:9 w2(i)=H(i)/sum(H);endfor i=1:9 w3(i)=(w1(i)+w2(i)/2;endw3=w3 程序4clc;clear; a1=xlsread(dataset.xlsx,B1:B3145);a2=xlsread(dataset.xlsx,C1:C3145);a3=xlsread(dataset.xlsx,D1:D3145);a4=xlsread(dataset.xlsx,E1:E3145);a5=xlsread(dataset.xl

20、sx,F1:F3145);a6=xlsread(dataset.xlsx,G1:G3145);a7=xlsread(dataset.xlsx,H1:H3145);a8=xlsread(dataset.xlsx,I1:I3145);a10=xlsread(dataset.xlsx,J1:J3145);a10=xlsread(dataset.xlsx,K1:K3145);A=a1,a2,a3,a4,a5,a6,a7,a8,a10,a10;E=A;%for i=1:10 C(i)=sum(A(:,i)/3145;endp=0;for i=1:10 for j=1:3145 p=p+(A(j,i)-C

21、(i)2; end D(i)=p/3145; p=0;endfor i=1:10 V(i)=sqrt(D(i)/C(i);endfor i=1:10 w1(i)=V(i)/sum(V);end%critick=0;for i=1:10 for j=1:3145 k=k+(1-A(j,i); end H(i)=k*sqrt(D(i); k=0;endfor i=1:10 w2(i)=H(i)/sum(H);endfor i=1:10 w3(i)=(w1(i)+w2(i)/2;endw3=w3 clc;clear; a1=xlsread(dataset.xlsx,B1:B3145);a2=xlsr

22、ead(dataset.xlsx,C1:C3145);a3=xlsread(dataset.xlsx,D1:D3145);a4=xlsread(dataset.xlsx,E1:E3145);a5=xlsread(dataset.xlsx,F1:F3145);a6=xlsread(dataset.xlsx,G1:G3145);a7=xlsread(dataset.xlsx,H1:H3145);a8=xlsread(dataset.xlsx,I1:I3145);a10=xlsread(dataset.xlsx,J1:J3145);a10=xlsread(dataset.xlsx,K1:K3145)

23、;A=a1,a2,a3,a4,a5,a6,a7,a8,a10,a10;s=cov(A);for i=1:length(s) for j=1:length(s) R(i,j)=s(i,j)/sqrt(s(i,i)*s(j,j); endendRa1=xlsread(dataset.xlsx,B1:B3145);a2=xlsread(dataset.xlsx,C1:C3145);a3=xlsread(dataset.xlsx,D1:D3145);a4=xlsread(dataset.xlsx,E1:E3145);a5=xlsread(dataset.xlsx,F1:F3145);a6=xlsrea

24、d(dataset.xlsx,G1:G3145);a7=xlsread(dataset.xlsx,H1:H3145);a8=xlsread(dataset.xlsx,I1:I3145);a10=xlsread(dataset.xlsx,J1:J3145);a10=xlsread(dataset.xlsx,K1:K3145);A=a1,a2,a3,a4,a5,a6,a7,a8,a10,a10;s=cov(A);for i=1:length(s) for j=1:length(s) R(i,j)=s(i,j)/sqrt(s(i,i)*s(j,j); endendR1.考虑变量2-10的评估结果（前300个数据）患病后验概率p1无病后验概率p26.98357E-050.9999301640.0025179780.9974820220.0006258860.9993741140.0015368650.9984631355.75962E-050.9999424044.16529E-060.9999958350.002630080.997369920.0159689190.9840310810.000361590.999638410.0006441340.9993558660.4931422460.5068577540.0

展开阅读全文