浅谈正态分布论文.doc

上传人:韩长文 文档编号:3958866 上传时间:2019-10-11 格式:DOC 页数:14 大小:333.50KB
返回 下载 相关 举报
浅谈正态分布论文.doc_第1页
第1页 / 共14页
浅谈正态分布论文.doc_第2页
第2页 / 共14页
浅谈正态分布论文.doc_第3页
第3页 / 共14页
浅谈正态分布论文.doc_第4页
第4页 / 共14页
浅谈正态分布论文.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《浅谈正态分布论文.doc》由会员分享,可在线阅读,更多相关《浅谈正态分布论文.doc(14页珍藏版)》请在三一文库上搜索。

1、正态分布浅谈摘 要 正态分布在概率论与数理统计中占有很重要的地位,是许多概率形成的理论基础,它是不以人的主观思想而转移的。正态分布有统一的表达式,通过表达式我们可以发现正态分布是一个怎样的分布。在自然界和人类活动的范畴里,大量的随机变量都服从正态分布,如测量误差、产品的各类质量指标、人的身高、某一区域的成绩、计算机大量的数据处理和内部的算法运行等等都趴在了正态分布的曲线图上,可以说,服从正态分布的随机变量应用已经是自然的规律,所以多年来科学家对正态分布的探究是非常值得的。本文通过对正态分布的基础入手,阐述正态分布在各行业所起的作用,如机械设计、医疗统计、水平测试等。关键词 正态分布;表达式;应

2、用1、 正态分布的由来和发展正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家(棣莫佛)于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越

3、性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。这是历史上第一次提到所谓“元误差学说”误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根在一篇论文中正式提出了这个学说。其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的 “元误差” 之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误

4、差(近似地)服从正态分布。拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。联系和发展是事物发展变化的基本规律。任何事物都有其产生、发展和灭亡的历史,如果我们把正态分布看做是任何一个系统

5、或者事物的发展过程的话,我们明显的看到这个过程经历着从负区到基区再到正区的过程。无论是自然、社会还是人类的思维都明显的遵循这这样一个过程。准确的把握事物或者事件所处的历史过程和阶段极大的有助于掌握我们对事物、事件的特征和性质,是我们分析问题,采取对策和解决问题的重要基础和依据。发展的阶段不同,性质和特征也不同,分析和解决问题的办法要与此相适应,这就是具体问题具体分析,也是解放思想、实事求是、与时俱进的精髓。正态发展的特点还启示我们,事物发展大都是渐进的和累积的,走渐进发展的道路是事物发展的常态。例如,遗传是常态,变异是非常态。总之,正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造世

6、界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造世界,能更好的在尊重和利用客观规律,更有效的改造世界。2、 正态分布的性质和概念2.1性质:1、一般正态分布表达式: 标准正态分布表达式:2、关于直线对称,当时,达到最大值,曲线有拐点 (,);3、以 轴为渐近线;4、若固定,改变的值,则曲线沿轴平行移动,曲线的几何形状不变,若固定,改变的值,越大的图形越平坦,越小的图形越陡峭如下图。注:参数为算术平均数,一般情况下可认为是众数,满足;为标准差,即方差的算术平方根,必须满足。 特别地,当=0,=1时,称X服从

7、标准正态分布,即XN(0,1),其概率密度函数记为 是显然的,又因为记I=,则 令,则 所以,则 而也是显然的,又 这里不仅证明了是整个实数范围内的,而且证明了一般正态分布表达式对积分的最后结果为1,即,这里可以发现是全体实数范围的,如果是在某个范围内的,就可以计算出这个范围内的出现几率有多大,这就是我们接下来要谈到的正态分布应用。2.2概念: 1、正态分布曲线是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。2、正态分布的密度函数:(1)f(x)为与x对应的正态曲线的纵坐标高度;(2)为总体均数;(3)为总体标准差;(4)为圆周率,即3.141592654;(5)e为自然对数,

8、即2.71828.由一般分布的频数表资料所绘制的直方图,图(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。为了应用方便,常对正态分布变量X作变量变换。该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正

9、态变量或标准正态离差(standard normal deviate)。实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。3、 一般概率分布的正太近似在自然界与工程实践中,经常会遇到大量随机变量是服从正态分布的,而在某些条件下,即使原来并不服从正态分布的一些随机变量,它们的和的分布当随机变量的个数无限增加时也趋于正态分布。我们就先来说说我们熟知的二项分布,例如:假设按一种制造方法生产一批垫圈,这些垫圈大约有5%是次品,如果检

10、查了100个垫圈,问次品数小于4的概率是多少?令是已发现的垫圈的次品数,则, 要直接计算这一概率是相当困难的,这时我们可以考虑不直接去求,而是间接的去求。在二项分布的概率计算中,当试验次数增加,而每次试验中某事件出现的概率很小,即当n很大,p很小,而np大小适中时,可以证明有近似公式: 其中,于是考虑.这一概率以颇为复杂的形式依赖于n,且当n趋向于无穷大时上式将变成怎样的表达式是不清楚的。这时我们需要用到司蒂灵(Stirling)公式,当n趋向无穷大时, 这个近似值的对与否我们不是很清楚,下表可以使我们对这一近似值的准确性有所了解.注:虽然n!与近似值之差当时变得较大,但从下表我们得知它们的误

11、差率越变越小,就是说差值大并不影响它们近似。Nn!差值110.9220.0780.08221.9190.0810.045120118.0191.9810.02100.0081000.0008对的表示式中所出现的阶乘应用司蒂灵公式,可以证明(经大量运算后),当n充分大时由此我们得到下面结果: 若X为具有参数为n和p的二项分布,且若 Y具有渐进分布.这一近似对于n10,只要接近时是有效的.如果p接近于0或1,则n应稍为大一些以便保证良好的近似.回到上面的例子,我们想到E(X)=np=100(0.05)=5V(X)=np(1-p)=4.75因此由正态分布表我们写为 = 注:在应用二项分布的正态近似时

12、,我们是用一个连续随机变数的分布来近似一个离散随机变数的分布。因此必须注意所包含区间的端点。 所以对上面的公式加以修正之后得到: (a), (b)。对于上面的例子计算,采用后面的修正,得 从这里可以看出,当二项分布的频数无限增大时,二项分布就会无限接近正态分布。许多观察表明,如果大量独立的偶然因素对总和的影响都是均匀的、微小的、彼此又是独立的,即其中没有哪一项起特别突出的作用,那么就可以断定描述这些大量独立的偶然因素的总和的随机变量是近似服从正态分布的,像泊松分布,帕斯卡尓分布和伽玛分布。4、 正态分布在生活中的应用 正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近

13、似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;某些医学现象,如人的身高、红细胞数、血红蛋白量、胆固醇、体重等指标;人类活动的某一指标或水平划分;同一种种子的重量;测量同一物体的误差;某个地区的年降水量;以及理想气体分子的速度分量,等等。4.1 零件规格的设计由自动生产线加工的某种零件的内径X(毫米)服从正态分布N(,1),平均内径是待定的,可以通过调整该自动生产线来设定,方差反映这条自动生产线的加工精度。如果加工的零件内径小于10或大于12均为不合格品,其余为合格品。销售每件合格品获利,销售每件不合格品亏损,已知销售利润L(单位:元)与销售零件的内

14、径X有如下关系: 问:平均直径为何值时,才能使销售一个零件的平均利润最大?由于L是随机变量,它是X的函数,所以平均利润即为期望利润。由,那么 可知,期望利润与平均内径有关,是的一元函数。 为了求期望利润E(L)的最大值,令,其中、分别为标准正态分布的分布函数与概率密度函数,则解之,得 由此可知,当平均内径设定为10.9毫米时,可使销售每个零件的平均利润最大。4.2 某些医学现象的正态分布统计 某地抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;分别求X1s、X1.96s

15、、X2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。本例中,、未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见下表。表3 100名18岁男大学生身高的实际分布与理论分布分布xs身高范围(cm)实际分布人数实际分布百分数(%)理论分布(%)X1s168.69176.716767.006

16、8.27X 1.96s164.84180.569595.0095.00X2.58s162.35183.059999.0099.00 制定医学参考值范围:它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定

17、单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:正态分布法:适用于正态或近似正态分布的资料。双侧界值:Xu(u)S单侧上界:X+u(u)S,或单侧下界:X-u(u)S对数正态分布法:适用于对数正态分布资料。双侧界值:lg-1X(lgx) u(u)S(lgx);单侧上界:lg-1X(lgx)+u(u)S(lgx),或单侧下界:lg-1X(lgx)-u(u)S(lgx)。常用u值可根据要求由下表查出。百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。常用u值表参考值范围(%)单侧双侧800.8421.282901.2821.645951.6451.9609

18、92.3262.5764.3 人类活动的指标和水平划分的计算 高考后,考生填报志愿时,下列两个问题就显得很重要:(1)高考后(或前)希望能准确估计自己的标准分和“百分位”(百人中所处的位置);(2)希望从考生手册中往年高校第一志愿实际录取的最高、最低、平均分三个数据获取更多更准确的信息。不以人们意志而转移的统计规律正态分布理论,就可以帮助我们估计,实现这两个目的。一个学校在正常情况下,同类考生都有一、二百人以上规模,这已经算大样本容量了。只要教学和考试秩序正常,某些成绩与全省同类考生的成绩就必然表现出正态分布的特征。我们还知道影响本届考生成绩的敏感因素还有试卷难易程度、环境因素、心里能力等因素

19、。个别考生也许会发挥异常,但一个学校一、二百个以上学生的成绩,会在全省众多同类考生之中因考试(统计学称为试条件相同引起的异常波动却是很小的)就是说,一个学校、二百个以上考生成绩在全省里面有较高相对稳定性。所以只有把每一个考生考后所估计比较真实的成绩放在整个学校,以大样本来分析才能保证用总体正态的特征来判断考生成绩所处位置的科学性。这里以某年西安电子科大在福建实录第一志愿40名考生为例,当时最低、最高、平均分分别是634、714、660分,现计算分析如下:(1) 把634,714隔10分分为8个段把分点换算为实际标准分;=(634500)100=134 =144=2.14(2) 查标准正态分布表

20、算出大“曲边梯形”面积:=(0.24)-(1.23)=0.07394(3) 查标准正态分布表算出8个小“曲边梯形”面积:=(1.44)一(1.34)=0.01519=0.01315,=0.00128=0.00957,=0.00805 =0.00450(4)算出落在80分数段的录取人数40。要注意的是,根据标准正态分布的特征8个数据40。均应采用去尾法所得整数作为所估实录人数,但考虑到最高分数段录取人数往往手步一人所以如果最高分数段录取人数出现040l,则要令40=1;次高分数段也类似处理;最低分数段以外的各段录取人数之和去减录取总人数所得的差就作为最低分数段录取人数。 在计算机方面我们也可以发

21、现正态分布的应用。设若我们知道某校某年级某次测验的成绩,我们需要的是把这些成绩放到网络上方便传阅,为了给计算机的执行时间和占用的存储空间都比较理想,我们需要编制一个程序,这个程序的算法用到哈夫曼树,哈夫曼树的特点是执行时间比一般算法的执行时间短,而且存储的空间比较小,但唯一需要知道的是,我们学生分数段是如何分排的,在一个学校的正常情况下,学生们的成绩一般都服从正态分布,例如要编制一个将学生百分成绩按分数段分级的程序,其中90分以上为A,80至89分为B,70至79分为C,60至69分为D,0至59分为E。假设这次测验的成绩服从正态分布,知道了是以75分为的正态分布,在编程时就以70至79分为根

22、节点,其他分数段为分支构造哈夫曼树,这样写出来的程序既执行时间短,而且存储空间少,为学校所管理下的计算机省下不少资源。5、 结论 概率和正态分布在生活中是紧密相连的,统计是不可忽视的重要工具。要善于利用这个工具,这能使我们更加的接近自然,并且了解它。有了这些基础理论,人们在未来的发展道路更上一个台阶。参考文献1常柏林,李效羽,卢静芳,钱能生编.概率与数理统计M.第二版.北京:高等教育出版社2012. 2孙洪祥,柳金甫主编.概率论与数理统计(二)M.北京:辽宁大学出版社2012.3田长生主编,徐庆和副主编.概率统计也微积分M.北京:科学出版社2006.4P.L.Meyer著,潘孝瑞,邓集贤,杨维权,许刘俊等译.概率引论及统计应用M.北京:高等教育出版社1986.5罗扎.塞克斯著,罗永泰,史道济译.应用统计手册M.河北:天津科技翻译出版公司1988.- 14 -

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1