逐步判别分析法在筛选水质评价因子中的应用1.doc

上传人:西安人 文档编号:3626949 上传时间:2019-09-18 格式:DOC 页数:6 大小:247.50KB
返回 下载 相关 举报
逐步判别分析法在筛选水质评价因子中的应用1.doc_第1页
第1页 / 共6页
逐步判别分析法在筛选水质评价因子中的应用1.doc_第2页
第2页 / 共6页
逐步判别分析法在筛选水质评价因子中的应用1.doc_第3页
第3页 / 共6页
逐步判别分析法在筛选水质评价因子中的应用1.doc_第4页
第4页 / 共6页
逐步判别分析法在筛选水质评价因子中的应用1.doc_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《逐步判别分析法在筛选水质评价因子中的应用1.doc》由会员分享,可在线阅读,更多相关《逐步判别分析法在筛选水质评价因子中的应用1.doc(6页珍藏版)》请在三一文库上搜索。

1、精品论文推荐逐步判别分析法在筛选水质评价因子中的应用1卢文喜 1,李 俊 1,于福蓉 1,于国庆 1,2,刘 磊 1,31 吉林大学环境与资源学院,长春 (130026)2 北京市地质工程勘察院,北京 (100037)3 吉林化建安装工程有限责任公司,长春 (132000)E-mail: 摘要:应用逐步判别分析法对水质进行评价因子筛选,通过对水质实际监测因子的假设检验分析,引入判别能力好的因子,建立判别方程,对实例进行水质评价并取得了较满意的结 果。结果表明:通过筛选引入判别方程变量的后验概率均达到 90%以上,都是对判别分类 有显著影响的,从而提高了所建立的判别函数的稳定性和评价结果的可靠性

2、。进行因子筛选的评价结果显示石头口门水库 20012004 年为 II 类水,2005 年为 III 类水,污染呈现出逐 年加重之势,与实际情况相符;而未进行因子筛选的评价结果显示 5 年水质没有变化,均为 II 类水,且 2005 年后验概率仅达到 52,结果判误率高。因此,逐步判别分析是用于筛选 水质评价因子的可行方法。关键词:逐步判别分析;水质;评价;筛选因子0. 引言水环境系统是由多因子构成的复杂系统,水质监测数据是通过多年连续监测所获得,这 些原始监测数据数量巨大,监测的指标变量众多,使得对水质的分析造成了一定的困难1-2。 在进行水质评价时,如果对所有监测指标不加选择的一概用来评价

3、分析,不仅计算量大,而 且往往由于变量间的自相关性,使得评价结果的精度下降。如何正确选择有限个指标能充分 的反映由诸多指标影响的地表水污染状况,成为水质监测与评价的重点和难点3。本文尝试运用多元统计分析中的逐步判别分析法对所取断面的水质数据进行分析,在多 指标的情况下筛选出最显著的几个主要因子,在以贝叶斯 Bayes 判别法建立判别式对水质进 行综合评价。1. 基本原理逐步判别分析是一种多元统计方法,它是在判别分析的基础上采用有进有出的办法,把 判别能力强的变量引入判别式,同时,将判别能力差的变量剔除4。每步引入或剔除变量都 要作相应的统计检验,最终在判别函数中只保留数量不多但判别能力强的变量

4、。这个筛选过 程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量5。2. 计算步骤设有 n 个样本,每个样本有 P 项观测指标,且X为所考查样本全体的集合,它们来源5-6于 K 个总体 G1 , G2 ,LGK ,利用 q 个变量(qp)来对 K 个总体进行判别。2.1 数据处理(1)计算所有样本点的总离差矩阵 TK na ii- 6 -T =a =1 i =1( x( a ) x)( x( a ) x)。1本课题得到高等学校博士学科点专项科研基金(20050183055)的资助。其中: ( a ) q , ( a ) 1 K na( a ) xi Rxi是总体 Ga 中的样本点(i

5、1,2,na), x = xi。n a =1 i =1(2)计算样本点的组内离差和 WK naaa( ( a ) ( ) ( ( a ) ( ) ( a ) 1 na( a ) W = xia =1 i =1 x) xi x) 。其中: x= xina i =1, a = 1, 2,L K。2.2 变量的选择W变量判别力的测度,主要利用矩阵 T 和 W 的行列式比值,定义 ,即: =。要T检验某一变量对判别效果的贡献7-9,可按以下步骤进行。(1)设判别函数中已经有了 q 个变量,记为 X*,这时考虑是否增加变量 Xj,可计算偏 统计量( x j| X * ) = ( x* , xj) / (

6、 X * )。其中, ( X * , xj) 表示 X*与 Xj 的 的统计量。可以证明:n K q 1 ( x jF =| X * )F ( K 1, n K q)。K 1( x j| X * )a式中 Fa (K 1, n K q) 为统计量 F 极限分布,记 Fa (K 1, n K q) = F进,如果F F进 ,则可增加变量 Xj。(2)对于判别函数中已有的 q 个变量 X*中,是否有对判别能力贡献不显著的变量存在, 则应将其从判别函数中删除。例如,考虑 XK 是否可以从判别函数中剔除,记删掉 XK 的变量 组为 X*(K),则有n K q1 1 ( x| X * )F = K K

7、F (K 1, n K q + 1)。KKK 1( x| X * )a*这时,如果 F Fa (K 1, n K q + 1) ,则可将 XK 从 X 中删掉。2.3 建立判别式,对样品判别分类经过变量筛选后,就可用各种方法建立判别函数和判别准则,对任意个体逐个进行判别 分类,并计算属于该总体的后验概率。本文使用 Bayes 判别法建立判别式10,假设共计算 l +1步,最终选出 L 个变量,判别式为11yg = l1qg( g )+ C0+Li =1( g )Cixi , g = 1, 2,L, k。将每一个样品 x = ( x1 ,L, xp ) (x 可以是一个新样品,也可以是原来 n

8、个样品之一),分别代入 K 个判别式 yK 中去。若 y(h / x) = max y( g / x ) ,则 x 第 h 总体。1 g k 3. 应用实例以长春市石头口门水库为研究对象进行实例分析。石头口门水库位于吉林省饮马河中 游,长春市以东 40km 处,上游流域面积 4994km2,流域内多年平均径流量 8.37 亿 m3,总 库容 12.6 亿 m3,是长春市重要的饮用水源地。3.1 监测指标采用 2001 -2005 年石头口门水库监测断面水质监测资料作为待测样本,主要包括 12 项 指标:溶解氧(X 1)、高锰酸盐指数(X 2)、化学需氧量(X 3)、生化需氧量(X 4)、氨氮(

9、X5)、总磷(X 6)、总氮(X 7)、氟化物(X 8)、铅(X 9)、挥发性酚(X10)、石油类(X11)、粪 大肠菌群(X12)。3.2 评价标准采用地表水环境质量标准(GB3838-2002)作为评价标准12,将水质分为 5 个类别,以 标准建立 55 种假设样品,即将水质标准评级中规定各个指标上的每一级标准值作为评价的 归类样本。3.3 水质评价(1) 计算各变量的均值、总均值(表 1)。表 1 各个因子分类均值类别X 1X 2X 3X 4X 5X 6X 7X 8X 9X10X11X12第 1 类0.06251.4389.10751.77950.07440.0060.08340.589

10、60.00430.00140.0355134.0713第 2 类0.14743.20348.12521.4830.31730.02050.40150.60990.0050.00150.02811025.5679第 3 类0.18214.769517.6643.36130.74670.03850.79850.43410.03660.00340.03185865.6463第 4 类0.26828.386926.764.74891.270.07080.83371.21150.03120.00780.275515873.414第 5 类0.427112.47534.6848.2781.73570.14

11、291.77821.26380.07560.06340.773932011.366总均值0.21746.054519.2683.93010.82880.05570.77910.82180.03050.01550.228910982.013组内离差矩阵和总离差矩阵如下:组内离差(W)矩阵0.08340.24711.24960.12720.01610.010.07010.15850.00070.00250.022751.20140.247150.8170.495313.5071.57470.08961.26453.0170.0929-0.00470.684549711.3821.24960.495

12、3761.3267.2036.15230.92167.32546.44830.3070.2931.729345362.9060.127213.50767.20334.5131.41160.1181.15760.8620.13670.12341.165435414.3360.01611.57476.15231.41161.10610.02230.2540.32930.0175-0.0137-0.07182349.8126W =0.010.08960.92160.1180.02230.01120.04770.03940.00250.00260.0188786.674830.07011.26457.

13、32541.15760.2540.04771.31910.36040.01550.02210.27213216.86060.15853.0176.44830.8620.32930.03940.36043.85140.03750.01180.03914631.12280.00070.09290.3070.13670.01750.00250.01550.03750.00540.0010.01768.354890.0025-0.00470.2930.1234-0.01370.00260.02210.01180.0010.00780.0103567.645740.020.68451.72931.165

14、4-0.07180.01880.27210.03910.0170.01030.39012005.4622751.24971145363354142349.8786.683216.94631.168.355567.652005.5433858475总离差(T)矩阵0.927226.92367.51916.3854.06620.33813.87422.10530.16710.14821.864182136.717726.923906.092169.6535.57132.4610.509120.1268.1485.3434.505659.2762595804.0967.5192169.66522.7

15、1422.3344.7827.135304.94172.2913.96611.281147.76537668.416.385535.571422.3370.1480.8916.657475.93239.1343.573.129338.8661641881.654.0662132.46344.7880.89121.5081.59218.36710.0990.82670.63338.5045386548.667T =0.338110.50927.1356.65741.5920.14151.53820.81090.06890.06270.770432534.83143.8742120.12304.9

16、475.93218.3671.538219.2298.02620.81990.70718.562360542.6882.105368.148172.2939.13410.0990.81098.026210.4120.36010.33194.6912200580.6930.16715.34313.9663.570.82670.06890.81990.36010.04290.03190.386816123.17320.14824.505611.2813.12930.63330.06270.70710.33190.03190.03960.380615124.48091.864159.276147.7

17、38.8668.50450.77048.5624.69120.38680.38064.9638186751.317821373E+067E+062E+063865493253536054320058116123151251867518234456978(2) 选择变量取 Fa 临界值=3.00,对于可供筛选的因子,每一步对因子变量进行统计检验,再确定该 因子是剔除还是选入,计算直至既无变量剔除,又无变量引入,逐步计算结束。最终从 12 个原指标中筛选出能判定研究区水质类型归属的 8 个最佳变量,包括:溶解氧(X 1)、化学 需氧量(X 3)、氨氮(X 5)、总氮(X 7)、氟化物(X 8)、铅

18、(X 9)、石油类(X11)、粪大肠菌 群(X12)。鉴于篇幅问题在这里不再详述逐步计算的步骤。(3) 计算结果利用通过检验筛选出的 8 个因子建立的判别函数如下:y1=-5.1714+27.6790X1+0.5470X3+0.4405X5-3.1977X7+6.6162X8-48.3823X9 +5.9328X11- 0.0003 X12,y2=-11.6178+90.3852X1+0.2491X3+10.8104X5+8.3430X7+3.3303X8-50.7503X9-0.8760X11 -0.0006 X12,y3=-33.6517+96.4260X1+0.6330X3+19.398

19、7X5+21.8194X7-5.4931X8+291.0888X9 -26.7997X11 -0.0001 X12,y4=-71.2473+94.9890X1+1.0536X3+50.7047X5+2.0468X7+5.4825X8-108.6741X9 + 34.6420X11+ 0.0006 X12,y5=-182.9032+134.1084X1+1.0181X3+64.8805X5+22.4897X7-2.7109X8+128.9983X9 + 68.9032X11+ 0.0019X12。对参与选判别函数的已知分类的 55 个假设样本进行计算分类后部分结果见表 2。表 2 部分标准计算后

20、分类和后验概率样本序号原分类计算后分类后验概率1110.992110.9912220.9931440.9932441.0041551.0042551.0051110.9352220.9953331.0054440.9955551.00结果表明,对于该 5 类的判对率接近 100,保证了对未知分类的待测样品进行判别分类的准确性。为了分析是否筛选变量对于评价结果的影响,笔者还给出了用全部变量来建立 判别式的评价结果,结果见表 3。表 3 水质评价结果对比分析年份分类类别(变量筛选)后验概率分类类别(未变量筛选) 后验概率200120.9220.99200220.9620.99200320.9720

21、.99200420.9820.99200530.8820.523.4 结果及讨论变量筛选后的评价结果表明,水库的水质除在 2005 年为 III 类水外,2001-2004 年均为 II 类水,水体比较稳定,水质情况目前仍然较好。但是也应该看见,由于受上游工业废水、 生活废水及水土流失等因素的影响,水质已经受到轻度污染,并呈现出逐年加重之势。评价 结果与实际情况基本吻合。在未进行变量筛选的评价结果表明,水库在这 5 年中水质情况没有变化,均为 II 类水, 除 2005 年外,其他年份水质评价结果与变量筛选后的评价结果一致。但从后验概率中可以 看出,未进行变量筛选的评价结果差别不显著,判误率较

22、高,故不采用该结果。4. 结论(1)利用通过检验、判别能力好的因子建立的判别方程,对研究区水质进行了评价, 研究区水质处于轻度污染并有逐年加重之势,评价结果与实际情况基本吻合。(2)由于引入的变量都是对判别分类有显著影响的,从而提高了所建立的判别函数的 稳定性和判别结果的可靠性。同时用少数几个变量即可有效的反映研究区的水质状况,为实 际工作减少了许多工作量。(3)与未进行变量筛选的评价结果进行对比分析后,可以看出对变量筛选后的评价结 果与实际情况更为吻合。可见,逐步判别分析是筛选水质评价因子的可行方法。参考文献1 Singh K P, Malik A, Mohan D, et al. Mult

23、ivariate statistical techniques for the evaluation of spatial and temporal variations in water quality of Gomti River (India)- a case studyJ. Water Research, 2004, 38: 3980 39922 Vega M, Pardo R, Barrado E, et al. Assessment of seasonal and polluting effects on the quality of river water by explorat

24、ory data analysisJ. Water Research, 1998, 32: 3581 35923 周丰,郭怀成,黄凯等. 基于多元统计方法的河流水质空间分析J. 水科学进展, 2007, 18(4):544-5514 段新国,王允诚,李忠权等. 应用多组逐步判别分析优选油气层J. 大庆石油地质与开发, 2007, 26(1):68-715 于秀林,任雪松. 多元统计分析M. 北京:中国统计出版社, 1999, 101-1496 李麦村,姚棣容,杨自强. 筛选因子的多级逐步判别方法J. 应用数学学报, 1977, (4):58-737 任若恩,王惠文. 多元统计数据分析理论、方法

25、、实例M. 北京:国防工业出版社,1997:33-55 8 田方,杨永发,麻平社等. 逐步判别分析法在鄂尔多斯盆地油田的应用J. 国外测井技术, 2005, 20(1):40-449 冉兴龙. 氟中毒地区饮水水质标准的确定方法J. 中国环境科学, 1997 17(3):237-24010 陈军,范晓敏,莫修文. 火山碎屑岩岩性的测井识别方法J. 吉林大学学报(地球科学版), 2007, 37(增 刊):99-10111 孙文爽,陈兰祥. 多元统计分析M. 北京:高等教育出版社, 1994, 295-33212 国家环境保护总局. GB3838-2002 地表水环境质量标准S. 北京:中国科学研

26、究院, 2002Application of Stepwise Discriminant Analytical Method inScreening Factor of Water Quality EvaluationLu Wenxi1, Li Jun1, Yu Furong1, Yu Guoqing1,2, Liu Lei1,31College of Environment and Resources, Jilin University, Changchun (130026)2Beijing Geology Engineering Institute, Beijing (100037)3Ji

27、lin Chemical Engineering & Construction Co. LTD. Changchun (132000)AbstractScreen the factors of water quality evaluation through the stepwise discriminant analysis method. Byhypothesis-testing analysis of the monitoring water quality factors, lead in the most effective factors and establish the dis

28、criminant equation. Then evaluate the water quality of an example and satisfied with the results. The results show that the posterior probability of factors which were selected and leaded in are higher than 90%, and the factors have a significant impact on the identification and classification. Thus

29、 enhance the stability of the established discriminant function and the reliability of the results of the evaluation. The appraisal result of the water quality of Shitoukoumen Reservoir from year 2001 to 2004 is II, in 2005 is III. It shows that the Pollution has aggravated gradually year by year, a

30、ccord with the fact. The appraisal result of water quality which had not carried on the variable screening did not changed, which is II. And in 2005 the posterior probability is only 52%, the result shows the error rate is high. So the stepwise discriminant analytical method is the feasible method which can be used to screening the factor of water quality evaluation.Keywords: stepwise discriminant analysis; water quality; evaluation; screening factor作者简介:卢文喜(1956-),男,吉林德惠人,教授,博士生导师,主要从事地下水数值 模拟及水分生态研究。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1