传染病发病数资料的EM估量.docx

上传人:scccc 文档编号:14418679 上传时间:2022-02-05 格式:DOCX 页数:11 大小:31.38KB
返回 下载 相关 举报
传染病发病数资料的EM估量.docx_第1页
第1页 / 共11页
传染病发病数资料的EM估量.docx_第2页
第2页 / 共11页
传染病发病数资料的EM估量.docx_第3页
第3页 / 共11页
传染病发病数资料的EM估量.docx_第4页
第4页 / 共11页
传染病发病数资料的EM估量.docx_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《传染病发病数资料的EM估量.docx》由会员分享,可在线阅读,更多相关《传染病发病数资料的EM估量.docx(11页珍藏版)》请在三一文库上搜索。

1、传染病发病数资料的EM估量叶小华周舒冬李丽霞李燕芬【摘要】目的:旨在探讨EM算法在具有链结构的传染病发病数 资料分析中的应用.方式:借助EM睾法,对4 口之家的麻疹发病数资料别离拟合Greenw00dt二项散布模型和Reed Frost链二项散布 模型.模型拟合成效的比拟采纳Pearson % 2查验. 结果:基于Greenwood链二项散布模型时,家庭内麻疹感染率为 %而基于Reed Frost链二项散布模型时,家庭内麻疹感染率为 % Reed Frost 链二项散布模型的拟合成效优于Greenwood链二项散布模型.结论:采纳EM法处置和分析传染病发病数资料更简便易行.【关键词】EM估量传

2、染病资料链二项散布模型流行链(Department of health Statistics ,Guangdong College of Pharmacy, Guangzhou510310 )Abstract Objective: To explore the use of E M algorithm for the analysis of chain infectious disease data on outbreak size. Methods: With the E M algorithm,the Greenwoodand Reed Frost chain binomial model

3、s are fitted for infectious disease data on measles outbreak size in household of size four. Results: Based on Greenwood chain binomial model,the infection percent is % . Based on Reed Frost chain binomial model,the infection rate is %. The ReedFrost chain binomial model fitted better than the Green

4、woodchain binomial model . Conclusions: EM algorithm can beemployed more flexiblyto deal with the infectious disease dataon outbreak size.Key words Expectation Maximization algorithm; infectious disease data;chain binomial models; epidemic chain传染病资料不同于一样的医学资料,有自身的特殊性:传 染病资料的观看结果之间存在高度的相关性,即非独立性( no

5、 independent );一样来讲,感染进程只能被部份观看.因此分析传 染病发病数资料时,极大似然估量往往无显式表达,需要用复杂的迭 代法求解.为此,本研究介绍用 EMS法(Expectation Maximization Algorithm )分析和处置此类传染病资料.1原理和方式EM算法口3是一种数据扩充算法.数据扩充法处置问题的 一起点为:不进行复杂的求极值或模拟计算,运用隐藏数据来扩充观 看数据,以取得一个简单的后验散布.要紧包括两个迭代计算步:E 步(求期望步):对扩凑数据的似然函数的对数求条件数学期望;M 步求最大值步:利用E 步取得的期望值计算参数的校正估量 值.反复以上两步

6、,直至前后两次计算结果之差小于预先规定的收敛 标准比方10-5,那么停止迭代.传染病资料来自于自然发生传染病的观看,一样很难取得能 明确划分流行链的资料.相对而言,家庭内部的发病数资料较易取得. 下面以4 口之家从一个导入病例开始的发病数资料i0=1 , S0=3为 例,谈谈模型参数的EM估量.构造发病人数的概率散布第一,要构造各发病人数的概率散布,即将发病人数相同的链概 率求和.记家庭中有j个人发病的概率为 0 j ,那么发病人数的概率 散布为:0 1=Pr1 7 0=q310 2=Pr1 7 1 -0=3q41p10 3=Pr1 7 1 -1-0+Pr1 7 2-0=3q1p21(2q31

7、+q2)0 4=Pr1 7 1 -1 -1+Pr1 7 1 -2+Pr1 7 2-1+Pr1为了洞察疾病传播的本质规律,有必要对模型中参数间的关系引入两大具有流行病学意义的闻名模型:Greenwood模型和ReedFrost模型4,5 .Greenwood模型和Reed Frost模型事实上是链 二项散布模型在不同假设条件下的特例.各发病人数的概率散布整理 为表1.表中列出了发病人数、各流行链的链二项概率(Chain binomial probabilities )表达式及观看到的实际家庭数.其中p表示感染率,q=1-p表示未感染率.表1 4 口之家发病数资料 Greenwood和ReedFr

8、ost模型的概率散布(略)数据的扩充要紧运用隐藏数据来扩充观看数据,以取得简单的后验散布.下 面以Greenwood模型为例. 本例观看数据见表2,将资料以概率Cq3,3q4p,3q2p2(2q2+1),p3(6q3+3q2+3q+1)分为4类,家庭数散布如下:Y= (y1 , y2 , y3 , y4 )再将第3类以概率6q4p2和3q2P2分成两小类来扩充观看到的数据,同理,将第4类以概率6q3p3 , 3q2p3 , 3qp3 , p3分成4小类来扩凑数据,扩充后的数据其家庭数散布为:(x1 , x2 , x3a , x3b, x4a , x4b , x4c , x4d )使得:x1=y

9、1x2=y2x3a+x3b=y3x4a+x4b+x4c=y4同理,对表1中Reed Frost模型的观看数据进行扩充,扩充后的数据整理为表2.表2 4 口之家发病数资料扩充后的概率散布(略)EM估量的迭代计算EM古量要紧包括两个迭代计算步:E 步和M步.下面以Greenwood模型为例.E 步:对扩凑数据似然函数的对数求条件数学期望扩凑数据的似然函数为:L(q3)y1(3q4p)y2 3q2P2(2q2+1) y3Cp3(6q3+3q2+3q+1) y4似然函数L取对数得对数似然函数 Q(q,qi):Q(q,qi) 二E(3y1+4y2+2y3+2xi3a+3xi4a+2xi4b+xi4c)l

10、nq+(y2+2y3+3y4)ln(1-q)|qi,Y1(3y1+4y2+2y3+E(2xi3a+3xi4a+2xi4b+xi4c|qi,y)lnq+(y2+2y3+3y4)ln(1-q)那个地址,i为上标,表示第i次循环.x3a来自n=y3和p=6q4P26q4P2+3q2P2=2q22q2+1 勺二项散布.因此,E(xi3a|qi,Y)=2(qi)2y32(qi)2+1.同理,E(xi4a|qi,Y)=6(qi)3y46(qi)3+3(qi)2+3(qi)+1,E(xi4b|qi,Y)=3(qi)2y46(qi)3+3(qi)2+3(qi)+1,E(xi4c|qi,Y)=3(qi)y46(

11、qi)3+3(qi)2+3(qi)+1M步:计算第i+1步参数q的估量值qi+1=3y1+4y2+2y3+E(2xi3a+3xi4a+2xi4b+xi4c|qi,y)3y1+5y2+4y3+3 y4+E(2xi3a+3xi4a+2xi4b+xi4c|qi,y)E 步和M 步反复循环,直至qi与qi+1之差小于事前规 定的值(比方10-5)时,那么停止迭代.同理,可对表 2中Reed Frost模型的扩凑数据进行EM估量.2结果与分析以4 口之家从一个导入病例(introductory case )开始的麻疹 发病数资料为例(Bailey,1975 )6.拟合链Greenwood模型和链Reed

12、Frost模型,参数估量用EMM法,结果见表3.基于链Greenwood 模型时,家庭内麻疹感染率为 %而基于链Reed Frost模型时,家 庭内麻疹感染率为%模型拟合优度比拟用Pearson x 2查验,结果提 示Reed Frost模型的拟合成效优于 Greenwood模型.表3 4 口之家 麻疹资料EM古量结果(略)3讨论一样较难取得详细的传染链资料,相对而言,家庭内部的发病数 资料较易取得,因此探讨简便的参数估量方式分析此类资料是超级必 要的.传统的极大似然法在此类发病数资料的参数估量中往往无显式 表达,需要用繁琐的迭代求导进程求解,而且资料的发病数越大,迭 代求导进程便越复杂,因此

13、,其应用有必然的局限性.应用EM算法分 析该类资料可克服上述缺点,通过数据的扩充,运用简单的两步计算 进程E 步和M 步快速地估量参数.因此,对传染病发病数资 料的分析中值得推行.在传染病发病数资料的分析中,传统的极大似然法往往受资 料所引入模型种类的限制,对Reed Frost链二项散布模型资料的估 量较Greenwoo处二项散布模型复杂得多.而EMS法能克服以上缺点, 不管是基于Greenwood二项模型仍是Reed Frost链二项散布模型 的发病数资料,都能用简单的计算进程快速估量参数.实际应用中,EM算法也可应用于调查到详细传染链的传染病 资料即传染链资料,专门是服从Reed Fro

14、st模型的资料.该类 资料用传统的极大似然法估量往往无显式表达,迭代计算进程超级复 杂,且资料的发病数越大,迭代求导进程便越复杂.而EMB法可克服 这些缺点,通过数据的扩充,运用简单的计算进程快速估量参数.因此,对服从Reed Frost模型的传染链资料的分析中也值得推行.【参考文献】1朱世武,主编.基于SAS系统的金融计算.北京:清华大学 出版社,2004,329 342.2 Becker ., Britton T. Statistical studies of infectious disease incidence. Journal of the Royal Statistical So

15、ciety:Series B (Statistical Methodology), 1999, 61( 2): 287307.3 Becker . Use of the EM algorithm in the analysis of data on HIV/AIDS and other infectious diseases. Statistical Methods in Medical Research,1997,6(3):2437.4 荀鹏程,顾海雁,陈峰.链二项散布模型在传染病资料分析 中的应用.中国卫生统计,2005,22(1): 49 54.5 Becker . Analysis of Infectious Disease Data. NewYork: Chapman and Hall,1989.6 Bailey,N. . The mathematical theory of infectious diseases and its applications,second edition. London:Charles121.Griffin and Company,1975,75

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1