多元统计分析论文 (2).doc_三一文库31doc.com

资源描述

《多元统计分析论文 (2).doc》由会员分享，可在线阅读，更多相关《多元统计分析论文 (2).doc（20页珍藏版）》请在三一文库上搜索。

1、关于城镇居民人均全年家庭收入来源的统计分析作者：某某学院：理学院班级：10统计一班指导教师：高艳摘要：为了了解我国城镇人均居民收入的基本情况和收入来源，我选取了人均可支配收入、总收入、工资性收入、经营净收入、财产性收入和转移性收入几个指标对这个问题进行分析。本文首先采用聚类分析对各个省（市）的城镇居民人均收入进行了聚类，发现我国的各个省（市）之间的生活水平还是存在较大差异；然后用了判别分析对其中几个还没有分类的省（市）进行分类并对已经分好类的省（市）进行了一下判别，看一下我们第一步的分类是否合理；接着做了因子分析，分析了一下几个收入变量之间的关系，找出了两个可以代表全局的变量；最后在因子分析

2、的基础上对数据做了一个相应分析，观察了两个因子之间的关系。结果表明，各地区的经济发展不太平衡，人民生活水平差距较大，我们政府应采取一定的措施来带动相对落后的地区发展起来，实现共同富裕。关键词：城镇居民人均收入、聚类分析、判别分析、因子分析、相应分析、生活水平正文：序言：近年以来，全国上下认真贯彻落实科学发展观，以农业增产、农民增收为目的，加大各项惠农政策措施落实力度，多措并举做好农村劳动力转移就业工作，克服金融危机和严重干旱等自然灾害带来的不利影响，使全市农村经济保持了稳定发展的良好态势，农民现金收入持续增长，生活消费水平继续提高。我国是一个农业大国，至今仍有9亿农村人口，占全国人口总数的70

3、%，农民是我国最大的群体，农村消费能力的提升直接关系到国民经济的全局。从农村市场看，中国有近六成人口生活在农村。农村城镇化的进程对经济增长的带动作用是非常明显的，世界上还没有哪个国家有规模如此巨大的城镇化。农村居民的收入虽然低于城市居民，但是基数巨大，且农村人口的收入也在稳定增长。随着经济的发展，我国城镇居民的收入水平和消费水平的结构也发生了很大变化，人民生活水平的提高和消费的增加对于实现国民经济又好又快发展、正确处理好内需和外需的关系至关重要。于是，我就城镇居民人均收入方面的数据作了分析，大致讨论了一下现今为止人民的收入水平以及各地区农民的生活状况。正文：我选取了中国统计年鉴上的一组数据，关

4、于各地区城镇居民人均收入方面的问题，具体数据可以在文件夹中找到。对该数据，我用统计软件对它进行了聚类、判别、因子、相应等方面的分析，想要通过对该数据的分析了解一下我国各城市的居民人均收入情况，并对此提出相应的建议。具体分析情况如下：一、首先，录入数据如下：图-1二、对所录入的数据做聚类分析： “物以类聚，人以群分”。对事物进行分类，是人们认识事物的出发点，也是人们认识世界的一种重要方法。因此，分类学已成为人们认识世界的一门基础科学。为了克服定性分类存在的不足，人们把数学方法引入分类中，形成了数值分类学。后来随着多元统计分析的发展，从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断

5、发展，利用数学方法研究分类不仅非常必要而且完全可能，因此近年来，聚类分析的理论和应用得到了迅速的发展。聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。在这里我用了系统聚类对数据进行聚类分析，也是属于Q型聚类，按照收入水平高、中、低的原则，初步把各个省份分为三类。为了在第三步里进行判别分析，所以我首先取出了河北、上海、广东、西藏四个地区的信息，对其他的地区进行分类分析。表-1聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21111692847.908006271319

6、3129.0340053415384319.33100542226653214.995008547991593.0253213611211332913.8011012718201760721.431001188222311763.1090414919272913511.67200131017233542513.9020015115184297698.28407191211245149736.4956015134196612667.0225916148258302676.45680181511171.014E7121016164111.250E7131524171141.596E70022188

7、281.990E71402419562.388E711022209122.880E7002121394.313E70202522156.321E7171926232108.620E7002524481.215E816182625232.326E823212726143.490E822242727121.349E926250上表是我用系统聚类得到的聚类表，其中包括了群集组合、系数和首次出现阶群集，从中可以看出不同的群集之间的系数差异较大。表-2群集成员案例3 群集1: 全国12: 北京23: 天津24: 山西35: 内蒙古16: 辽宁17: 吉林38: 黑龙江39: 江苏210:

8、浙江211: 安徽312: 福建213: 江西314: 山东115: 河南316: 湖北317: 湖南318: 广西119: 海南320: 重庆121: 四川322: 贵州323: 云南324: 陕西325: 甘肃326: 青海327: 宁夏328: 新疆3表-2是我用系统聚类得到的最终的聚类结果。从表中可以看出，内蒙古、辽宁、山东、广西和重庆分为第一类；北京、天津、江苏、浙江和福建分为第二类；其余的省份分为第三类。从原数据表中可以看出，第二类的收入水平很高，属于在工资方面比较发达的地区，人民生活水平也应该比较高；第三类的收入水平很低，属于不太富裕的地区，

9、人民生活水平有待提高；第一类的收入水平居中，人民生活水平相对比较不错。* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 安徽 1

10、3 -+ 湖北 18 -+ 四川 24 -+ 云南 26 -+ 吉林 8 -+ 江西 15 -+ 山西 5 -+ 河南 17 -+ 海南 22 -+ 宁夏 31 -+ 湖南 19 -+ 河北 4 -+ 陕西 28 -+ 广西 21 -+ 重庆 23 -+ 内蒙古 6 -+ 辽宁 7 -+-+ 贵州 25 -+ | 青海 30 -+ | 黑龙江 9 -+ +-+ 甘肃 29 -+ | | 新疆 32 -+ | | 西藏 27 -+ +-+ 全国 1 -+-+ | | 山东 16 -+ | | | 江苏 11 -+-+ +-+ | 福建 14 -+

11、| | | 天津 3 -+-+ | 广东 20 -+ | 北京 2 -+-+ | 上海 10 -+ +-+ 浙江 12 -+图-2图-2是聚类分析的树形图，可以大概的看一下分类结果，从中可以看出树形图中得出的结论和群集成员表的分类结果是相吻合的，也比较符合实际。三、在聚类分析的基础上对其它的四个未分类的数据做出判别，找到属于它们的分类：表-3汇聚的组内矩阵可支配收入总收入工资性收入经营净收入财产性收入转移性收入相关性可支配收入1.000.978.842.129.225.378总收入.9781.000.882.075.166.407工资性收入.842.8821.000-.190.08

12、0.136经营净收入.129.075-.1901.000.452-.308财产性收入.225.166.080.4521.000-.456转移性收入.378.407.136-.308-.4561.000表-3是汇聚的组内矩阵，其中的数值表示的是每个变量同他自身以及其他的变量之间的相关系数，从中可以看出可支配收入、总收入和工资性收入之间的相关性是比较大的，而其他的几个变量之间的相关性较小。表-4标准化的典型判别式函数系数函数12可支配收入.9052.392总收入.675-3.988工资性收入-.7252.044经营净收入-.116.995财产性收入.061-.628标准化的典型判别函数是由标准化的

13、自变量通过Fisher判别法得到的，通过上表可以得到标准化的典型判别函数，要得到标准化的典型判别得分，代入该函数的自变量必须是经过标准化的。这种方法相对比较麻烦，我们一般不采用。表-5典型判别式函数系数函数12可支配收入0.000587.002总收入0.000370-.002工资性收入-0.000460.001经营净收入-0.000209.002财产性收入0.000200-.002(常量)-11.498-2.997非标准化系数上表是未标准化的典型判别函数系数，由于可以将实测的样品观测值直接代入求出判别得分，所以该系数使用起来比标准化的系数要方便一些，见表-5。一般在输出表中是默认保留三位小数，

14、但有些系数是0.000，为判别函数的结果造成误差，可以在右击后选择更改单元格格式中改一下显示的小数点位数。由此表可知，两个Fisher判别函数分别为：实际上两个函数式计算的是各观测值在各个维度上的坐标，这样就可以通过这三个函数式计算出各样品观测值的具体空间位置。表-6组质心处的函数Ward Method 函数121.260.70525.149-.2343-1.606-.180在组均值处评估的非标准化典型判别式函数表-6给出了组重心处的函数，实际上为各类别重心在空间中的坐标位置。这样，只要在前面计算出各观测值的具体坐标位置后，再计算出它们分别离各重心的距离，就可以得知它们的分类了。表-7分类函数

15、系数Ward Method 123可支配收入.017.019.015总收入-.007-.003-.006工资性收入-.002-.005-.002经营净收入.002.000.001财产性收入-.009-.006-.008(常量)-79.285-145.684-56.207Fisher 的线性判别式函数如表-7所示，Ward Method栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中，各类的Bayes判别函数如下：，。将各地区的自变量值代入上述三个Bayes判别函数，得到三个函数值。比较这三个函数值，哪个函数值比较大就可以判断该样品判入哪一类。结果可知（见图-3），河北、上海、广

16、东、西藏应分别判入三、二、二、三类。图-3由于我们在保存子对话框中选择了生成表示判别结果的新变量，所以在数据编辑窗口中，可以观察到产生的新变量。其中，变量dis-1存放判别样品所属组别的值，变量dis1-1，dis2-1分别代表将地区各变量值代入第一个，第二个判别函数所得的判别分数，变量dis1-2、dis2-2，dis3-2分别代表地区分别属于第1类、第2类，第3类的Bayes后验概率值。四、对所录入的数据做因子分析：因子分析也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作

17、“因子”，能反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而因子一般是不可观测的潜在变量。表-8相关矩阵a可支配收入总收入工资性收入经营净收入财产性收入转移性收入相关可支配收入1.000.998.951.495.557.777总收入.9981.000.959.483.545.775工资性收入.951.9591.000.334.469.610经营净收入.495.483.3341.000.634.288财产性收入.557.545.469.6341.000.241转移性收入.777.775.610.288.2411.000a. 此矩阵不是正定矩阵。表-8是相关矩阵表，相关系数反映每个变

18、量相互之间的依赖程度，由上面的表可以看出多数变量之间相关性还是比较强的，工资性收入和经营净收入之间相关性最弱，相关系数为0.334.表-9公因子方差初始提取可支配收入1.000.993总收入1.000.992工资性收入1.000.876经营净收入1.000.806财产性收入1.000.820转移性收入1.000.747提取方法：主成份分析。表-9是公因子方差表，里面包括各变量初始的方差和提取的因子的方差。表-10解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %14.15169.18569.1854.15169.18569.

19、1853.35455.89655.89621.08318.04387.2281.08318.04387.2281.88031.33187.2283.4747.90095.1274.2904.82599.9525.003.048100.00061.064E-111.773E-10100.000提取方法：主成份分析。表-10给出各公因子方差贡献表，其中初始特征值的三列给出初始相关矩阵或协差阵矩阵的特征值，用于确定哪些因子应该被提取：合计列为各因子对应的特征值，本例中共有两个因子对应的特征值大于1，因此应提取相应的两个公因子；方差的%列为各因子的方差贡献率；累积%列为各因子的累积方差贡献率，由上表可

20、以看出，前两个因子已经可以解释87.228%的方差。后面两大列给出提取出的公因子以及其经过旋转后的方差贡献情况。图-4图-4是各变量所占比重的碎石图，可见第一个成分的方差贡献率最大，而前两个成分的累积贡献率已经足够代表所有的变量。表-11成份矩阵a成份12可支配收入.986-.143总收入.983-.158工资性收入.907-.229经营净收入.605.663财产性收入.660.621转移性收入.766-.400提取方法 :主成分分析法。a. 已提取了 2 个成份。表-11给出旋转前的因子载荷阵，根据该表可以写出每个原始变量的因子表达式：，。从上表可以看出，每个因子在不同原始变量上的载荷没有

21、明显的差别，为了便于对因子进行命名，需要对因子载荷阵进行旋转。表-12旋转成份矩阵a成份12可支配收入.921.380总收入.927.365工资性收入.897.266经营净收入.182.879财产性收入.251.870转移性收入.863.047提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。表-12给出旋转后的因子载荷阵，从表上表可以看出，经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在指标、上有较大载荷，说明这四个指标有较强的相关性，可以归为一类；第二个公共因子在指标、上有较大载荷，可以归为另一类。表-13成份转换矩阵成

22、份121.860.5102-.510.860提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。表-13给出因子转换矩阵，若用A表示旋转前的因子载荷阵，用B表示因子转换矩阵，用C表示旋转后的因子载荷阵，则有：C=AB。表-14成份得分系数矩阵成份12可支配收入.272.007总收入.278-.005工资性收入.296-.070经营净收入-.187.601财产性收入-.155.574转移性收入.347-.223提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。表-14给出因子得分系数矩阵，根据上表中的因子得分系数和原始变量的标

23、准化值可以计算每个观测值的各因子的得分数，并可以据此对观测量进行进一步的分析。本例中旋转后的因子得分表达式可以写成：，。注意：在因子表达式中的各变量为进行标准化变换后的标准变量图-5 由于我们在保存子对话框中选择了“保存为新变量”，所以在原表中多了两列。见图-5.五、下面对因子分析的结果做相应分析：相应分析也叫对应分析，其特点是它所研究的变量可以是定性的。通常意义下的相应分析，是指对两个定性变量（因素）的多种水平进行相应性研究，因而它的应用越来越广泛，现在这种方法已经成为常用的多元分析方法之一。在社会、经济以及其他领域中，进行数据分析时经常要处理因素与因素之间的关系及因素内部各个水平之间的

24、相互关系。例如，评价某一个行业所属企业的经济效益，我们不仅要研究因素A，即企业按照经济效益好坏的分类情况，以及要研究因素B，即经济效益指标之间的关系，还要研究哪些企业与哪些经济效益指标更密切一些。这就需要相应分析的方法，将经济效益指标和企业状况放在一起进行分类、作图，以便更好的描述两者之间的关系，在经济意义上做出切合实际的解释。相应分析的思想首先由理查森和库德于1933年提出，后来法国统计学家让-保罗贝内泽等人对该方法进行了详细的论述而使其得到了发展。在因子分析中，我根据特征值大于1和累积贡献率大于80%的原则提取出了两个因子，一个是总收入因子，而另一个是可支配因子，要先对这两个因子进行重新

25、编码（小于-0.5编为1，-0.5-0编为2,0-0.5编为3,0.5-1编为4，大于1编为5），然后根据相应分析的步骤进行相应分析。表-15对应表总收入因子可支配因子12345有效边际1421301025511012301202540001125210003有效边际11945332上表为对应表，由上表可以看出可支配因子中的第1部分在总收入因子中的除了3、4以外的各部分所占的比例都相对较高。而总收入因子中的第2部分在可支配因子中的1、2部分所占的比例就是较大的。说明两个因子互相之间在前两个部分的相关程度还是很大的。表-16摘要维数惯量比例置信奇异值相关奇异值惯量卡方Sig.解释累积标准差21.

26、719.517.674.674.106-.3412.438.192.250.924.1463.210.044.058.9824.118.014.0181.000总计.76724.547.078a1.0001.000a. 16 自由度上表为相应分析的总览表，表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。奇异值为特征值的平方根，根据总惯量和特征值求和相等，有。第一个维度惯量0.517，占总惯量的67.4%，第二个维度惯量接近0.192，占总惯量25.0%,第三个维度惯量接近0.044，占总惯量5.8%,第四个维度惯量接近0.0

27、14，占总惯量1.8%。根据累计贡献率，可以认为只要用前两个维度就可以解释行列变量之间所有的关系，但为了说明分析过程，仍然保留四个维度。总惯量24.54732=0.767，满足总惯量和卡方统计量的关系式。同时卡方统计量的自由度16=(5-1)(5-1)，数值为0.078，说明行列变量之间存在显著的相关性，相应分析是有意义的。表-17概述行点a总收入因子维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1.313-.323-.555.082.045.219.285.511.7962.375-.467.326.083.114.091.706.210.9163.1561.600.792.3

28、33.556.224.864.129.9944.0631.555-1.744.204.210.434.532.408.9405.094-.756.387.064.074.032.597.095.692有效总计1.000.7671.0001.000a. 对称标准化表-18概述列点a可支配因子维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1.344-.650.038.112.202.001.930.002.9322.281-.331.431.054.043.119.410.425.8343.125.837.774.121.122.171.522.271.7934.156.033-1.4

29、07.140.000.706.001.965.9665.0942.204-.121.340.633.003.964.002.966有效总计1.000.7671.0001.000a. 对称标准化上面两个表即为行总览表和列总览表，现以行总览表为例，质量项表示行变量中每个类目的边际概率。维中的得分下面则是行点在两个维度的坐标（即为得分），即有坐标点1（-0.323,-0.555），2（-0.467,0.326），3（1.600,0.792）,4（1.555，-1.744），5（-0.756，0.387）。惯量即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和，即。比较行总览表

30、和列总览表的总惯量，可以发现行惯量与列惯量相等。贡献项有两个部分，分别是行变量的每个类目对维度（公共因子）特征值的贡献和每一个维度对每个类目的特征值的贡献。列总览表的分析和行总览表的分析相似。图-6上图为相应分析图，从中可以看出可支配因子和总收入因子均为3，可见因子得分在00.5的因子能够在整体分析中发挥最大的作用；而较高于平均水平的为总收入因子4和可支配因子5。综合来看还是因子得分大于0的因子起的作用较大。结论：综合以上所有分析，我国现今的城镇人均收入水平还是很不平衡，一些发达地区的人均收入甚至达到了某些落后地区的而到三倍。因此，国家应该调整相应的政策，切实增加某些地区人民收入，增强消费的

31、经济基础,通过增加消费拉动经济增长,通过经济增长带动消费的增加。此外还应培育城镇居民正确的消费观念，要加快形成积极的消费观念，在生产发展的基础上努力提高生活质量，使生活更加富有意义。对此，我提出了一些改善落后城镇居民收入的建议（采取积极措施促进落后地区劳动力就业）：一是要加大对城镇教育的投入，整合各类培训资源，加大培训力度，提高培训的针对性和有效性。二要继续加大劳务输出工作力度，做好与主要输入地区的劳务对接，加强就业信息收集和发布工作，引导农民有序外出。三是大力扶持企业发展，引导支持企业多用较不发达地区人民工多吸纳农民工。四是加大对某些地区居民自主创业的扶持力度，改善农民工回乡创业环境，以创业

32、带动就业。五是积极推进城乡一体化进程，大力发展农村二、三产业，拓展农村非农就业空间，实现就近就地就业。主要统计指标解释：城镇家庭人口：指居住在一起，经济上合在一起共同生活的家庭成员。凡计算为家庭人口的成员其全部收支都包括在本家庭中。城镇家庭总收入：指家庭成员得到的工资性收入、经营净收入、财产性收入、转移性收入之和，不包括出售财物收入和借贷收入。城镇家庭可支配收入：指家庭成员得到可用于最终消费支出和其他非义务性支出以及储蓄的总和，即居民家庭可以用来自由支配的收入。它是家庭总收入扣除交纳的个人所得税、个人交纳的社会保障支出以及记账补贴后的收入。计算公式为：可支配收入=家庭总收入-交纳个人所得税-个

33、人交纳的社会保障支出-记账补贴。参考文献：（1）于秀林、任雪松多元统计分析；（2）刘子君、赵维波 Spss for windows 统计分析；（3）中国国家统计局 2010中国统计年鉴；（4）Alvin C.Rencher Methods of Multivariate Analysis；（5）方开泰、潘恩沛聚类分析；（6）【英】M.肯德尔多元分析。附录：10-15 各地区城镇居民平均每人全年家庭收入来源 (2010年)单位：元地区可支配总收入收入工资性收入经营净收入财产性收入转移性收入全国19109.4421033.4213707.681713.51520.335091.90

34、北京29072.9333360.4223099.091170.65655.918434.77 天津24292.6026942.0016780.41931.81333.178896.61 河北16263.4317334.4210566.301043.72323.975400.43 山西15647.6616893.0010784.741044.85198.594864.81 内蒙古17698.1519014.2412614.462013.77432.823953.19 辽宁17712.5820014.5711712.681797.82249.596254.48 吉林15411.4716

35、794.4510621.431363.73163.834645.45 黑龙江13856.5115095.559087.591266.72102.054639.19 上海31838.0835738.5125439.971628.22512.128158.20 江苏22944.2625115.4014816.872519.06471.047308.57 浙江27359.0230134.7918313.603640.871470.136710.19 安徽15788.1717626.7111442.431172.36427.014584.91 福建21781.3124149.5915682.

36、482135.921420.844910.35 江西15481.1216558.0110613.831266.21344.774333.20 山东19945.8321736.9415731.231703.72490.223811.78 河南15930.2617141.8010804.881478.06222.074636.80 湖北16058.3717572.8311460.491391.83378.344342.17 湖南16565.7017657.0610782.041880.90541.114453.02 广东23897.8026896.8618902.432666.5395

37、6.604371.30 广西17063.8918742.2112061.821474.90576.874628.62 海南15581.0516929.6310957.921716.74559.763695.21 重庆17532.4318990.5412738.201263.20312.644676.51 四川15461.1617128.8911310.701198.69378.084241.43 贵州14142.7415138.809627.991174.02213.834122.96 云南16064.5417478.9110845.211122.891162.124348.70 西藏14980.4716538.9814707.14395.66233.041203.14 陕西15695.2117064.7112078.35573.19187.394225.78 甘肃13188.5514307.289882.50687.9672.233664.59 青海13854.9915480.8110061.58943.9673.904401.37 宁夏15344.4917536.7810821.222238.13189.524287.91 新疆13643.77154

展开阅读全文