毕业论文-基于聚类分析的我国各地GDP及影响因素分析.doc

资源描述

《毕业论文-基于聚类分析的我国各地GDP及影响因素分析.doc》由会员分享，可在线阅读，更多相关《毕业论文-基于聚类分析的我国各地GDP及影响因素分析.doc（12页珍藏版）》请在三一文库上搜索。

1、陕西理工学院毕业论文题目基于聚类分析的我国各地GDP及影响因素分析学生姓名学号所在学院数学与计算机科学学院专业班级数学与应用数学专业2011级数应1班指导教师基于聚类分析的我国各地GDP及影响因素分析（陕西理工学院数学与计算机科学学院数学与应用数学1101班,陕西汉中723001）指导教师:摘要:利用SPSS软件对全国30个省、直辖市、自治区的主要经济指标进行聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型.通过这种方法对全国各省进行经济分类.本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴.分析结果表明：北京市和上海市稳

2、居第一类经济类型；江苏省和、山东省、广东省和浙江多数处于第四类经济；其他25个省、直辖市、自治区基本在第二类型与第三类型变化.关键词:SPSS软件;聚类分析;经济类型;GDP1. 引言在当今欧美主导的经济发展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期内全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好体现,具有国际可比性,是联合国国民经济核算体系(SNA)中最重要的总量指标,为世界各国广泛使用并用于国际比较.众所周知2008年我国GDP跃居世界第三位,是仅次于美

3、国、日本的第三大经济国,而2009年在金融危机的影响下我国GDP稳中求进,依然保持着9.0%的增长态势.提高GDP已经成为经济发展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的发展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP.但是如果研究我国整体的GDP的意义就不大了，所以我选择了对中国各地的GDP进行研究.为了我国能够均衡发展. 2.预备知识2.1聚类分析的概述聚类分析是研究（样品或变量）分析问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合.严格的数学定义是较麻烦的，在不同问题中类的定义是不同的.为

4、了将样品（或变量）进行分类，就需要研究样品之间的关系.目前用得最多的方法有两个：一种方法是用相似系数，性质越接近的样品.另一种方法是将一个样品看作p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离越远的点归为不同的类. 聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里.分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差.（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法.这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类.（3）多维等级分析

5、（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度.（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法. 聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据.几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类.但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同.结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息.为解释因不同算法使同样数据产生不同结果，必须注

6、意判断不同的方式.对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）.最终，将需要经验可信度通过序列比较来指导聚类解释. 第二个局限由线性相关产生.上述的所有聚类方法分析的仅是简单的一对一的关系.因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点. 从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等. 从机器学

7、习的角度讲，簇相当于隐藏模式.聚类是搜索簇的无监督学习过程.与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记.聚类是观察式学习，而不是示例式的学习. 从实际应用的角度看，聚类分析是数据挖掘的主要任务之一.就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析. 聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤.一般的,聚类分析有二阶聚类分析（TwoStep Cluster Analysis）、逐步聚类分析（K-Means Clu

8、ster）和系统聚类分析；聚类分析（Cluster Analysis）又称集群分析,它是按“物以类聚”的原则研究事物分类的一种多元统计分析方法,根据样品的多指标（变量）、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并根据此连结这些样品或指标归成大小类群,构成分类树状图（Dendrogram）或冰柱图（Icicle）.聚类分析的优点是简单直观,大部分用于探讨研究,可以提供多种分析的结果,并且可以让研究人员根据自己的研究方向进行判断与选择.聚类分析完全依赖于研究人员对该分析所选择的相关聚类变量,变量的选择或增减都有可能会对结果造成实质性的影响,总的来说聚类分析对研究人员的研究十分

9、方便！3.我国各地GDP及影响因素分析3.1问题提出与分析随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增.但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢.因此,基于这种现状,本文对全国各地区的经济进行聚类分析.我选取了各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7这7个指标进行聚类分析.根据2010年国家统计年鉴,选取了2009年30个省、直辖市、自治区的7项经济指标,如下表.2009年我国30个省、直辖市、自治区的各项经济指标数

10、据统计单位：亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03315.011039.1334297216533414822558.0341.7天津7521.85281.713083.631564191744880518599.562.6河北17235.483640.924062.762332805513435582730.626.5山西7358.31908.79249.98165014631631502705.044.9内蒙古9740.251570.610699.449129264

11、1086941487.641.1辽宁15212.492704.628152.732855778530768826428.793.3吉林7278.751734.310026.55102412355557471049.418.2黑龙江8587.002251.17301.6012351015783452028.327.4上海15046.45283.224091.26324765451867021520170.8292.6江苏34457.303816.073200.03892893532596971215364.8205.2浙江22990.351873.441035.29886141096929148

12、13888.0166.5安徽10062.822569.513312.59195980715231402937.041.2福建12236.532001.216762.821941583843774554617.180.5江西7655.181733.89783.96118532947706071002.824.7山东33896.656003.171209.424051631775598357584.4262.6河南19480.464871.527708.15322011973766123083.098.7湖北12961.102985.215567.02304684097037724259.081.

13、4湖南13059.693207.913507.64232347341821771643.965.3广东39482.563337.668275.77298060433824131818599.1384.4广西7759.162377.26880.0487587303677651464.017.6海南1654.21705.01057.451366053301396517.58.4重庆6530.01913.16772.90175240462950472864.073.7四川14151.283689.818071.68290037109364692570.694.2贵州3912.68875.23426.

14、69506015818647825.89.5云南6169.751706.25197.4510774227435932591.017.0西藏441.3693.451.609102749933.20.4陕西8169.801337.28470.40220527622526261956.276.1甘肃3387.56876.33770.385243473106931205.812.8青海1081.27157.31080.35184815619432184.22.6宁夏1353.31243.51461.58232358622142373.68.0新疆4277.051297.64001.1272588502

15、73622511.87.03.2 描述性统计分析描述性（Descriptives）过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小（sample size）、均值（mean）、最小值（minimum）、最大值（maximum）、标准差（standard deviation）、方差（variance）、偏度（skewness）及其标准误差（std.error）. 通过spss statistics 21软件在数据编辑窗口的主菜单中选择“分析(A)”“描述统计”“描述性分析(D)” 将左侧框中的全部变量依次选入右侧框中,点击“选项(O)”按钮,在“选项”对话框中,选择自己需

16、要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度.最后点击“确定”按钮. 分析结果如表3.2所示：表3.2描述统计数字最小值(M)最大值(X)平均值(E)标准偏差方差偏度统计统计统计统计统计统计统计标准错误国内生产总值(X1)31441.3639482.5611783.99009730.4022094680726.9921.496.421农业生产总值(X2)3193.406003.101947.13231472.725802168921.268.861.421工业生产总值(X3)3151.6073200.0317687.464819988.82310399553048.9

17、701.933.421建筑业生产总值(X4)31910274.0089289353.0021924060.806521019292.33053441810650076473.6002.144.421进出口总值(X5)3199.0038241318.003927349.58068552969.3177473153284150171.2203.037.421批发企业销售额(X6)3133.2022558.005091.44196270.7771239322645.6531.738.421餐饮业31.40384.4086.6484104.0594910828.3781.703.421有效 N（成列）

18、(X7)31由表3.2可知分析描述统计量的输出结果可知,统计量共为11个,在所有指标中,极大值最大的经济指标是建筑业生产总值（X1）(89289353.00) 极小值最小的经济指标是餐饮业（X7）(.40) 平均人均经济指标较高的三个指标分别是进出口总值(X5) 3927349.5806建筑业生产总值(X4) 21924060.8065工业生产总值(X3) 17687.4648标准偏差较大的三个经济指标是进出口总值(X5) 3927349.5806建筑业生产总值(X4) 21924060.8065工业生产总值(X3) 17687.46483.3 系统聚类分析PASW/SPSS Statisti

19、cs的系统聚类分析（Hierarchical Cluster）或称分层聚类分析,其统计结果与图形有合并进程表（Agglomeration schedule）、距离（相似性）矩阵、聚类成员（cluster membership）结果的范畴,并可绘制垂直冰柱图（Vicicle）、水平冰柱图（Hicicle）或树状图（Dendrogram）等,聚类分析根据用户选择不同的聚类方法（Method）、不同的测度（Measure）、是否标准化、不同连结的图形（Plots）,其分类的结果是不尽相同的.在本文中所采用的是Q型聚类.具体方法采用欧式距离（Euclidean距离）和Ward法（Ward离均差平方和法

20、）.在系统聚类分析中,欧式距离平方运用的最为广泛,它的表达式如下：其中表示第i个样品的第k个指标的观测值, 表示第j个样品的第k个指标的观测值, 为第i个样品与第j个样品之间的欧氏距离. 如果越来越下,那么第i与j两个样品之间的性质就相对更接近,性质接近的样品就可以划为一类. Ward法（Ward离均差平方和法）,定义类间距离等于两类中所有样本的离均差平方和,此方法在实际应用中分类效果比较好,应用广泛,但是要求样品间的距离必须是欧式距离.3.4 输出结果分析：3.3个案处理摘要a个案有效缺失总计数字百分比数字百分比数字百分比31100.0%00.0%31100.0%a. 平方欧氏距离已使用

21、表3.4显示的是凝聚计划,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第2列和第3列表示的是聚合的类.从表中可知聚类共进行了10步,第一步首先合并距离最近的5号和7号样本,形成类G1,又因为下一阶为2,所以在第2步G1又与4号样本进行复聚类,形成G2,在首次出现阶群集里显示的群集1和群集2分别是0和1,在第一次出现的类的合并就在第6步,其中群集1和群集2分别是2和4,那么表示第2步和第4步合并形成的类在第6步合并；其余的类似,不再详细叙述.另外,系数值伴随着聚类的进行逐渐增大,开始增加的慢,后来增加的快,表明聚类开始时类与类之间的差异小,结束时类与类之间的差异大,这正是分层聚类所

22、表现出来的特征.3.4凝聚计划阶段组合的集群系数首次出现阶段集群下一个阶段集群 1集群 2集群 1集群 212428.00800722930.0090043714.01200842629.02402125820.06200116422.102001072124.1140112857.125031192531.156001510427.22760171158.2668515122126.3087421131723.3530014141718.3541301815525.40011917161213.64600201745.80610152018317.8190141919361.18718022

23、204121.225171621214212.060201223223162.1061902523242.8390212524193.322002925235.95223222926101110.869002727101516.2912602828101922.28027030291222.5112425303011040.02229280 下表是冰柱图,是反映各个样本的聚类情况并显示包括所有聚类和聚类范围的图.可以显示个案合并到聚类的过程,若是依照设定的类数,在那类数的行上从左到右就能够找到各类所包含的样本.由图可知：最先聚类的是序号24和28 ,其余的各自为一类,这时聚集数目为30.下表是

24、用“Ward连结法”聚类法生成的树状聚类图.可以直观地显示聚类的整个过程,当要分类的观测值（变量）个案较多时,就会比冰状图更加的清晰,并且树状图的上方横轴方向,标示出了各个指标类别之间的相对距离的大小,根据树状图还可以方便地了解指定聚类个数的分类结果,最简单的判断方法就是：可以在此图上垂直放一把尺子,将其左右移动,图中与尺子相交的每一根横线就是一类,每根横线左端与之联系的各个变量（指标）就是该分类里面的成员.通过上面结果可以看出：(1)使用聚类分析可以看出大致可以分为四个类型.第一类：北京市、上海市(2个) 第二类：天津市、山西省、内蒙古、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、广西

25、省、海南省、重庆市、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(19个)第三类：河北省、湖北省、四川省、湖南省、辽宁省(5个)第四类：江苏省、山东省、浙江省、广东省(4个)3.5分类结果分析与建议根据聚类分析的结果可知,以上分类结果大致反映了全国各省、直辖市、自治区所属的经济类型.北京市和上海市分别作为全国的政治、经济中心,综合经济实力较为突出,各个领域均衡发展,所以被一起划分为第一类经济类型.江苏省和山东省都是经济较为发达的地区,都为第三类型.它们的经济实力都很强,而且交通便利,拥有良好的发展空间和机遇.第四类经济类型仅为广东省,这可能是因为广东省的国民生产总值为39482.56亿元,

26、位居全国首位.其他省、直辖市、自治区均属于第二类型.这些地区发展较为缓慢,甚至有的地区的经济相对第一、第三、第四类型的省相差很多.这也说明我国的经济发展还存在很大的不平衡性,还需要国家投入更多的力量在发展第二类省份当中.当然,在上述分析中也存在一些问题,在选择变量时没有综合考虑其他因素等对经济的影响,分析结果可能存在较大偏差.但还是存在很好的参考价值.参考文献1任雪松,于秀林.多元统计分析M.北京:中国统计出版社,2010.12. 2李志辉,罗平.PASW/SPSS Staistics中文版统计分析教程M.电子工业出版社,2010.419-425.3贾俊平.统计学（第二版）M.北京:清华大学出

27、版社,2006. 4中华人民共和国国家统计局编.中国统计年鉴2013M.北京:中国统计出版社.5李晓松.医学统计学M.北京:高等教育出版社,2008.6周衍庆.SAS的聚类分析功能在经济地理分区中的应用J.枣庄师范专科学校学报,2003,(5):10-157白永秀,岳利萍.陕西城乡一体化水平判别与区域经济协调发展模式研究J.嘉兴学院学报,2005,(1):76-86.8罗姗,朱国会.全国区域经济发展水平的聚类分析J.重庆交通学院学报,2005,(4):78-81.9Podolny,J.M.,Baron,J.N.Relationships and resources:Social network

28、s and mobility in the workplaceJ. American Sociological Review,1997,(62).10陈瑶，周建萌，我国人均消费和人均国内生产总值关系的实证研究J企业导报，2012，（16）Analysis of GDP and its influencing factors in China based on clustering analysisChen Huang(School of mathematics and computer science (shaanxi institute of mathematics and applied

29、mathematics class 1101, shaanxi hanzhong 723001).Tutor: xiao-kang liabstract : With the use of SPSS software to analyze the main economic index of the 30 provinces, municipalities directly under the central government and autonomous regions, its economy can be divided into several different types ac

30、cording to the corresponding methods of analysis. These provinces over our country can be classified from the economy through this way.This paper chooses the seven indicators as to decide the influenial factors of economic type. And all the data are from the national statistical yearbook in 2010. Th

31、e results of analysis show that Beijing and Shanghai ranks in the first kind of economic type while Jiangsu, Shandong, Guangdong and Zhejiang provinces or other most in the fourth class economy; Other 25 provinces, municipalities directly under the central government and autonomous regions basicly range from the second type to the third type change. Key words: SPSS software;Clustering analysis;Economic type;GDP第11页共11页

展开阅读全文