毕业设计（论文）- 肾炎诊断问题.doc

资源描述

《毕业设计（论文）- 肾炎诊断问题.doc》由会员分享，可在线阅读，更多相关《毕业设计（论文）- 肾炎诊断问题.doc（32页珍藏版）》请在三一文库上搜索。

1、肾炎诊断问题一问题重述1二问题分析22-1 问题一分析22-2 问题二分析32-3 问题三分析32-4 问题四分析32-5 问题五分析3三模型假设与符号说明43-1 假设43-2 符号说明4四模型的建立与求解44-1 问题一的模型及求解54-1-1模型建立与求解5模型：两类总体fisher判别法5模型：BP误差反传神经网络判别法84-1-2 模型检验与结果分析94-1-3模型评价114-2 问题二求解与分析114-2-1：问题二的模型建立与求解114-2-2：问题二的计算结果与分析134-3 问题三建模与求解134-3-1：问题三的模型建立与求解134-3-2：主成分分析模型的结果检验与分析

2、154-4 问题四求解与分析164-5 关于问题二和问题四的结果分析与改进174-5-1 结果分析174-5-2 模型修正17五关于肾炎检测问题的进一步讨论及模型的推广18六参考文献19七附录19附录一：化验结果19附录二：部分程序代码22一问题重述人们到医院就诊时，通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1（见附录一）是确诊病例的化验结果，其中130号病例是已经确诊为肾炎病人的化验结果；3160号病例是已经确定为健康人的结果。表B.2（见附录一）是就诊人员的化验结果。我们的问题是：问题一：根据表B.1中的数据，提出一种或多种简便的判别方

3、法，判别属于患者或健康人的方法，并检验你提出方法的正确性。问题二：按照问题一中提出的方法，判断表B.2中的30名就诊人员的化验结果进行判别，判定他（她）们是肾炎病人还是健康人。问题三：能否根据表B.1的数据特征，确定哪些指标是影响人们患肾炎的关键或主要因素，以便减少化验的指标。问题四：根据问题三的结果，重复问题二中的工作。问题五：对问题二和问题四的结果作进一步的分析。二问题分析2-1 问题一分析该问要求根据表B.1中的数据，提出一种或多种简便的判别方法，判别属于患者或健康人的方法，并检验所提出方法的正确性。模型：表中展示了Zn, Cu，Fe，Ca，Mg，K, Na七种元素在确诊病人中的含量，要

4、想通过这七个观测指标判断某病人健康与否，首先，应分别用变量表示这七个观测指标，然后建立一个含有这七个变量的判别函数，通过将观测值带入函数计算出一个结果，找出一个固定的判别方法，判断所得结果属于哪一类。这是一个典型的两类总体判别问题。考虑到观测数据有限，为达到最佳的利用效果，也为了更加科学合理，在计算过程中，我们选取了四十组观测数据，采用fisher判别法建立模型并求解判别函数，再用余下的二十组观测数据进行检验，得出该模型的准确性，并对结果进行可靠性分析。模型：我们可以利用BP神经网络进行训练的方法判定就诊人员是否患病。将患者与健康者的指标进行训练，在建立模拟仿真网络对待测样本进行模拟，从而作出

5、诊断。本问以表1中的样本,对样本进行0-1 规划,以0表示健康人,以1表示肾炎患者，利用MATLAB软件对BP神经网络进行编程求解。并对剩下的10 名健康人和10 名肾炎患者进行了判定检验(如图4 所示) .最后，还需要对两个模型进行综合分析考虑，主要结合模型求解的准确性及实用性，进行误差比较，综合分析等，以选出最优模型，进行后面问题的求解。2-2 问题二分析该问要求按照问题一中提出的方法，对表B.2中的30名就诊人员的化验结果进行判别，判定他（她）们是肾炎病人还是健康人。通过第一问的求解，已经有了一个能较为准确地判别一个人是否患有肾炎的方法，在此问中，就只需把表B.2中的30名就诊人员的化验

6、结果与一问中的两个模型进行对应，带入求解，根据模型的使用方法，就能判定他（她）们是肾炎病人还是健康人。2-3 问题三分析本问要求根据确诊病例的化验结果的数据特征，确定哪些指标是影响肾炎诊断的关键或主要因素，以便减少化验指标。为此，我们建立了样本主成分分析模型进行分析，利用降维的思想，将多个指标转化为几个综合指标，即主成分。该模型以各主成分对原始变量方差贡献的大小为标准对其进行排序，并求出其贡献率。一般情况下，当p个变量的累计贡献率超过85%时，就能确定需要提取的主成分个数为p。再将载荷矩阵的转置乘以由挑选出的各主成分贡献率所构成的矩阵，得出每个指标的重要性，绝对值越大表明其对肾炎诊断的影响越大

7、。从而依次选出这q个主要指标，达到简化分析的作用。为减少工作量，在验证模型准确率时，我们只选取了模型，按照一问中的方法建立模型，进行判别并检验正确率。2-4 问题四分析本问题与二问相同，也是要求对表B.2中的30名就诊人员的化验结果进行判别，判定他（她）们是肾炎病人还是健康人，且采用的模型和判别方法与二问中相同，不同点在于带入模型的观测指标数量有所变化。经过第三问的建模与求解，判定一个人是否患肾炎的指标减少了，只保留几个关键因素，这样，判别模型得到进一步简化，在对就诊人员进行判定的时候就更加便捷。2-5 问题五分析本问题要求对第二问和第四问的结果进行分析。与第二问相比，第四问中的求解过程只考虑

8、了几个关键因素，而不是全部七个指标，化验指标的减少必然会使就诊成本降低，看病效率提高，但更重要的是要保证诊断结果与之前一致，否则就会影响诊断的准确性。通过这一问的分析，就能判断第四问所取的关键因素是否具有足够的代表性。如果结果分析一致，则说明所选因素能准确判断一个人是否患有肾炎；如果不一致，则分析偏差出现的原因，并重复第四问的工作，重新确定主要因素。在此基础上就影响肾炎诊断的主要因素谈谈如何有效地进行肾炎诊断，分析模型的推广。三模型假设与符号说明3-1 假设1）题中所给的内容和数据都是真实可信的，确诊病例情况（患病或是健康）都是准确无误的；2）除了表中列出的元素外，其他元素对是否会患肾炎的影响

9、很小；3）没病的个体都是健康体；4）忽略人体内其它元素对问题中七种元素含量的影响；5）化验结果中每个元素的值之间没有影响；6）假设医生不会仅仅依靠化验结果对患病情况作出最终判断，化验仅仅作为医生诊断的一种辅助手段，所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。7）两总体肾炎病人和非肾炎病人化验结果中各元素的期望值，标准差和由数据给出的样本的统计量是一致的。 3-2 符号说明: 第一类总体，即表B.1中1至30号病例所组成的总体: 第二类总体，即表B.1中31至60号病例所组成的总体: 第一类总体中第i个观测指标: 第二类总体中第i个观测指标: 第i个观测指标的均值: 第i个观测指标的

10、系数除模型以外，所有检测结果中，1表示患有肾炎，2表示健康。四模型的建立与求解4-1 问题一的模型及求解4-1-1模型建立与求解模型：两类总体fisher判别法1）取全部七个观测变量，构造判别函数：其中，系数确定的原则是使两组间的区别最大，而使每个组内部的离差最小。2）从表B.1中的两个总体中分别抽取20个样本，每个样本都观测全部七个指标，得表一：样本观测值总体病例号ZnCuFeCaMgKNa116615.824.5700112179513218515.731.570112518442731939.825.9541163128642415914.239.789699.22397265226

11、16.223.860615270.321861719.299.2930718745.5257720113.326.655110149.4141814714.53065910215468091728.857.8655175.798.43181015611.532.56391071035521113215.917.757892.4131413721218211.311.3767111264672131869.2637.195823373347141628.2327.162510862.4465151506.63216271401796391615910.711.761219098.53901711

12、716.17.0498895.51365721818110.14.0414371841015421914620.723.8123212815010922042.310.39.762993.74398883121319.136.22220249401683217013.929.8128522647.93303316213.219.8152116636.2133342031390.8154416298.93943516713.114.1227821246.31343616412.918.6299319736.394.5371671527205626064.62373815814.437102510

13、144.672.53913322.83116334011808994015613532267471090228810411698308106899.1532894224717.38.65255424177.9373431668.162.81233252134649442096.4386.9215728874219451826.4961.738704321433674623515.623.4180616668.81884717319.117249729565.82874815119.764.220314031828744919165.43553613921376885022324.4863603

14、35397.7479将属于不同总体的样本带入判别函数，得对以上两组等式分别左右相加，再除以相应的样品个数，则有第一组样品的“重心” 第二组样品的“重心” 为使判别函数能很好地区别来自不同总体的样品，则需满足：（1）来自不同总体的两个平均值相差越大越好。（2）对于来自第一个总体的，他们的离差平方和越小越好，同样越小越好。综上两点，就是要求越大越好。利用微积分求极值的必要条件，求得可使I达到最大的。求解过程如下计算量总体间的离差矩阵S其中可以证明，最有判断系数为如下方程的解即利用MATLAB软件编程（见附录二）计算，结果见表二。3) 求临界值，在两总体先验概率相等的假设下，取为的加权平均值=

15、-0.1131模型：BP误差反传神经网络判别法1.首先建立BP神经网络模型。神经网络模型是单个并行处理的集合，BP神经网络采用监督学习方式，在网络投入使用前使用一个样本数据集来训练神功神经网络。如图二，学习过程由正向传播和反向传播组成。在正向传播过程中，输入信号从输入层经隐层单元逐层处理，并传向输出层，每一层神经元的状态只影响下一层神经元的状态。如果在输出层得不到期望的输出，则转入反向传播，将输出信号的误差沿原来的连接通络返回。通过修改各层神经元的权值，使得误差信号最小。学习算法如图一所示。图一：学习算法框图图二：BP神经网络示意图根据题设，把表一中的20个患者和20个健康人的七项指标作为输

16、入项，以407的矩阵输入，再以0/1代换的思想，患病看作是1，健康看作0，以110的矩阵为目标输出。通过训练，不断修改权值，得出最终结果。2.模型的求解1）能量函数选取平方型误差函数为2）隐层数取1，隐层单元数取73）传输函数选取S型函数通过MATLAB软件，编写程序（见附录二），训练结果如图所示图三：神经网络训练图4-1-2 模型检验与结果分析模型：将表B.2中余下的二十组观测数据带入判别函数进行求值，由于，当观测样品带入判别函数后，若，则判定为第一组，即该就诊人员患有肾炎；若，则判定为第二组，即该就诊人员健康。判别结果如表二所示：表二：fisher模型检验结果病例号y值临界值判断类

17、别原类别210.034-0.11311122-0.02241123-0.09031124-0.00261125-0.08141126-0.00041127-0.017611280.00951129-0.01181130-0.00271151-0.27042252-0.18452253-0.15892254-0.15292255-0.30432256-0.25112257-0.32622258-0.18022259-0.15612260-0.105612在二十组数据中，仅有一组发生了误判，为60号病例。可得该模型的正确率为95% 模型：运用以上求解所得神经网络，对21至30号，51至60号数据

18、进行判别，检验结果如下图所示：可以看出，仅有第七组数据发生了误判，正确率同样为95%。由于建模过程中使用的四十组观测数据与检验时所用的20组数据不重复，有效地避免了数据间的相互影响，彼此独立，因而检验结果具有很强的可靠性，同时，95%的准确率也符合要求，因此可以这两个模型对就诊人员进行判别。4-1-3模型评价模型优点：本问所建立的两个模型简单易懂，对总体的分布类型没有要求，都能够较为准确地解决该肾炎诊断问题，由题中所给数据，计算结果准确率都达到了95%。其中，BP神经网络能通过学习带正确答案的实例集自动提取“合理的”求解规则，即具有自学习能力。两个模型在生活中的应用都很广，可移植性强。.模型的

19、计算采用专业的数学软件，可信度较高；模型缺点：1）选取的样本个体数目较少，不能有效的反映模型的准确度；2）假设患肾炎的决定因素只是题目所给的七项指标，显然与实际不符；4-2 问题二求解与分析4-2-1：问题二的模型建立与求解模型：选取的fisher模型，对30位就诊人员进行判别，不需再建立模型，只需按照要求，依次把30个样本带入计算，利用MATLAB软件编程（见附录二程序4），可得判别函数的最优解及判别函数根据判别原则，得到表三。表三：fisher模型判别表病例号y值判定类别病例号y值判定类别610.02161760.0144162-0.033177-0.0807263-0.061278-0

20、.082640.0489179-0.0056165-0.0215180-0.1651266-0.0605281-0.2184267-0.1124282-0.1539268-0.01541830.07042690.001184-0.0919270-0.13962850.03561710.0165186-0.12532720.0502187-0.03981730.024188-0.2159274-0.093289-0.3878275-0.045190-0.07922模型：利用问题一中所建的BP神经网络模型，通过MATLAB编程可得表B.2中就诊人员的判定结果，如下表：表三：三组数据判别表病例号模

21、型模型61患病患病62患病患病63健康健康64患病患病65患病患病66健康健康67健康患病68患病患病69患病患病70健康健康71患病患病72患病患病73患病患病74健康健康75患病健康76患病患病77健康健康78健康健康79患病健康80健康患病81健康健康82健康患病83健康健康84健康健康85患病患病86健康健康87患病患病88健康健康89健康健康90健康健康4-2-2：问题二的计算结果与分析分析表三，两个模型所得结果中只有67，75，79号三组数据不同，相似度达到90%，再次验证了两个模型对于该诊断问题的准确性。因此，这两个模型都具有很强的实用性。.4-3 问题三建模与求解4-3-1：问

22、题三的模型建立与求解1.对表 B.1 中数据进行标准化处理.计算表B.1 中的样本的均值，方差，并作标准化变换，再求得标准化变换后的样本协方差矩阵S，求解过程如下：1)样本均值： 2)样本方差：3)标准变换： 4)变换后的协方差矩阵：在本题中，协方差阵S如下表示：2.用所求得的协方差矩阵代替总体协方差矩阵，计算S的所有特征根及相应的特征向量，并按的大小顺续排列（见表四）。3.计算主成分的贡献率及累计贡献率及载荷。1）贡献率：2）累计贡献率3）计算主成分载荷其中，rij（i，j=1，2，p)为原来变量xi与xj的相关系数，在此问中与协方差矩阵值相同。由MATLAB编程（见附录二程序）可得

23、，表五：主成分分析表成分数特征根贡献率累计贡献率62.42540.34650.346571.66870.23840.584951.20260.17180.756740.79470.11350.870230.47930.06850.938720.16020.03840.977110.26910.02291.0000一般情况下，当前r个主成分累计贡献率达到85%以上便可以确定其为关键因素。由表五中的结果可知，前四个主成分的累计贡献率已达到87.02%，由此可以确定主成分个数为四个，计算对应的载荷矩阵，得，为准确取出影响人们患肾炎的关键因素，以四个主成分的贡献率作为权重，与载荷矩阵p的转置相乘，得出

24、能真正反映各变量重要性的值。即取出的前四个值，记为，计算得到一个17的矩阵：取绝对值最大的四个指标，依次为由此可以提取四个主成分分别别为：Zn Ca Mg K4-3-2：主成分分析模型的结果检验与分析根据主成分分析模型的结果，我们已得出了Zn Ca Mg K在人体中的含量是肾炎诊断中的关键因素，也就是说，我们在建立Fisher模型，求解判别方程时，只需要把变量数据挑出考虑就行，这样，求解时运算量减少了，只需从两个总体中各抽取20个样品，每个样品观测4个指标，得到的观测值如表所示。（1）建立判别式.经计算得到y值如表五所示。（2）求判别临界值，对于所给样品判别分类。由于，当样品带入判别函数

25、后，若，则判定为第一组，即该就诊人员患病；若，则判定为第二组，即该就诊人员健康。检验结果如表五所示。表六：主成分分析验证表病例号y值临界值判断类别原类别210.0841-0.04711220.07491123-0.030411240.01221125-0.040711260.077111270.007611280.080511290.032111300.05811151-0.23152252-0.09492253-0.08572254-0.11462255-0.28612256-0.23032257-0.26852258-0.15022259-0.11952260-0.037612 经计算，

26、可得出正确率为95%，与一问中没去除任何因素时的正确率相同，因此，就此项指标而言判别结果好。4-4 问题四求解与分析由于在做主成分分析模型检验时已经用表一数据求得判别函数，且通过对余下的二十组数据的检测可知，该判别函数的准确率为95%，满足条件。故计算时不用重新求解，直接将表B.2中的数据带入判别式，算出结果，再与判别临界值比较即可得出判别结果，如下表：表七：主成分分析判别表编号y值临界值判定组别原始结果果编号y值临界值判定组别原始结果611-0.0412-0.10551176-0.0972-0.105511622-0.06891177-0.096612633-0.0874127818-0.

27、118122644-0.0315117919-0.09711655-0.0708118020-0.106122666-0.0634118121-0.100912677-0.1565228222-0.11622688-0.10782183-0.07631169-0.0933118424-0.1163227010-0.1382228525-0.0878117111-0.0371118626-0.1408227212-0.0797118727-0.1056217313-0.07811188-0.1443227414-0.133228929-0.1515227515-0.1074219030-0.12

28、4822分析表中数据，可知，患病的有14人，与问题二中的结果比较，可以再次检验主成分分析法所得的结果是否准确，具体分析见4-5.4-5 关于问题二和问题四的结果分析与改进4-5-1 结果分析通过对表六的分析，可以得出如下结论：1）提取四个主成分之后，虽然累计贡献率已达87.02%，超过85%的最低要求，但是由表六的分析结果可知，与之前七个变量的预测结果相比，有6个判别结果不同，占所有观测值的20%，差距太大，不能保证结果的一致性。因此，提取出的四个主成分不能作为诊断时的全部指标，应对第三问的结果进行修正。2）在第三问的主成分分析模型中，除了用已确定类别的数据进行检验以外，还需要通过其他方式

29、验证模型的准确性。例如，本问通过对30组未确定类别的数据进行类别判定，与提取前的判定结果相比，再次检验模型的准确性。4-5-2 模型修正通过以上分析，需要对问题二中的主成分模型进行修正，再次对表四结果进行分析。由于之前的四个主成分不能满足要求，因此，需要把第五个主成分加上，提取出的主成分改为Zn Ca Mg K Cu 在人体中的含量。于是，把以上五个主成分分别记为，重复问题一中的步骤，同样采用1到20号，31到50号共40组数据，运用模型，求解判别函数和临界值，结果如下：表八：主成分分析判别表（修正后）病例号y值临界值判断类别二问结果病例号y值临界值判断类别二问结果1-0.0278-0.113

30、11116-0.0561-0.1131112-0.0721117-0.1205223-0.14972218-0.1224224-0.04131119-0.0532115-0.06771120-0.194226-0.10091221-0.2496227-0.15462222-0.177228-0.12062123-0.0522119-0.06091124-0.1252210-0.21672225-0.08941111-0.05331126-0.21092212-0.03481127-0.13262113-0.0441128-0.22722214-0.17532229-0.39282215-0.1

31、0061130-0.139422由上表可知，提取五个主成分作为主要因素后，对表B.2中的30组观测值作判别，所得结果与提取前符合度较高，90%的判别结果相同，再次验证了五个主成分能够代表原有的七个观测指标，能够独立进行肾炎判别。五关于肾炎检测问题的进一步讨论及模型的推广在社会、经济、自然科学领域的研究中，人们经常需要对某一研究对象的一些属性进行观察和研究从而将其进行适当的归类。例如，一个医生要对病人病情进行分析，以便判断到底应该使用何种手段治疗，例如非典型肺炎与典型肺炎治疗的方法就不相同。经济管理人员要对产品进行分类，判别它的销售情形属于“畅销”还是“滞销”。植物学家要对一类植物进行分析，昆

32、虫学家对一种蠓虫的分类判别研究，地质学家要对某一地层出现的岩芯进行分类分析，上述事例与本文中的肾炎诊断问题类似。利用本文所选模型，取得大量数据，便可通过已知的指标建立最优判别机制，在满足正确率的基础上，用最少的指标对研究对象进行判别，从而解决如上的众多实际问题。六参考文献【1】姜启源、谢金星、叶俊数学模型(第三版) 高等教育出版社【2】约翰逊、威客恩编陈旋、叶俊译实用多元统计分析第六版清华大学出版社【3】西北工业大学数学建模指导委员会编数学建模简明教程高等教育出版社【4】刘保柱、苏彦华、张宏林编 MATLAB 7.0从入门到精通(修订版) 人民邮电出版社【5】朱大奇

33、史慧编著人工神经网络原理及应用科学出版社七附录附录一：化验结果表B.1是确诊病例的化验结果，其中130号病例是已经确诊为肾炎病人的化验结果；3160号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。B.1 确诊病例的化验结果病例号ZnCuFeCaMgKNa116615.824.5700112179513218515.731.570112518442731939.8025.9541163128642415914.239.789699.2239726522616.223.860615270.321861719.299.2930718745.5257720113.326.6551

34、10149.4141814714.530.065910215468091728.857.8655175.798.43181015611.532.56391071035521113215.917.757892.4131413721218211.311.3767111264672131869.2637.195823373.0347141628.2327.162510862.4465151506.6321.06271401796391615910.711.761219098.53901711716.17.0498895.51365721818110.14.0414371841015421914620

35、.723.8123212815010922042.310.39.7062993.74398882128.212.453.137044.14548522215413.853.36211051607232317912.217.9113915045.22182413.53.3616.813532.651.6182251755.8424.980712355.61262611315.847.362653.61686272750.511.66.3060858.958.91392878.614.69.7042170.81334642990.03.278.1762252.37708523017828.832.

36、499211270.21693121319.136.2222024940.01683217013.929.8128522647.93303316213.219.8152116636.21333420313.090.8154416298.903943516713.114.1227821246.31343616412.918.6299319736.394.53716715.027.0205626064.62373815814.437.0102510144.672.53913322.831.016334011808994015613532267471090228810411698.003081068

37、99.153.02894224717.38.65255424177.9373431668.1062.81233252134649442096.4386.9215728874.0219451826.4961.738704321433674623515.623.4180616668.81884717319.117.0249729565.82874815119.764.220314031828744919165.435.053613921376885022324.486.0360335397.74795122120.115531723681507395221725.028.223433731104945316422.235.52212281153549541738.9936.016242161032575520218.617.7378522531.067.35618217.324.8307324650.71095721124.017.0383642873.53515824621.593.2211235471.719

展开阅读全文