主成分分析前的数据预处理.doc

上传人:scccc 文档编号:14134147 上传时间:2022-02-02 格式:DOC 页数:5 大小:276KB
返回 下载 相关 举报
主成分分析前的数据预处理.doc_第1页
第1页 / 共5页
主成分分析前的数据预处理.doc_第2页
第2页 / 共5页
主成分分析前的数据预处理.doc_第3页
第3页 / 共5页
主成分分析前的数据预处理.doc_第4页
第4页 / 共5页
主成分分析前的数据预处理.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《主成分分析前的数据预处理.doc》由会员分享,可在线阅读,更多相关《主成分分析前的数据预处理.doc(5页珍藏版)》请在三一文库上搜索。

1、教育装备管理中主成分分析前的数据预处理(源于中国教育技术装备 2008年第16期)艾伦1 艾霁野21中国 首都师范大学2美国力口州大学洛杉矶分校摘要:本文介绍了在教育装备管理中使用主成分分析前对采集的数据进行数据预处理的过 程。并针对统计软件 SPSS的使用叙述了进行数据预处理的方法。关键词:主成分分析;数据预处理;SPSSData Pre-Processing prior to Principal Components Analysis in Education EquipmentManagement1 2 Ai Lun Ai Jiye1 2Capital Normal University

2、 of China University of California, Los Angeles USAAbstract: In this paper, a process of data pre-processing prior to Principal Components Analysis in educati on equipme nt man ageme nt is in troduced. A method of data pre-process ing is described aga inst the use of the statistical software SPSS.Ke

3、ywords: Prin cipal Comp onents An alysis, Data Pre-Process ing, SPSS1 数据预处理的必要性教育装备的评价问题与许多其它领域评价问题的研究方法不同,在对教育装备本身特 点、教育装备配置条件、教育装备使用效果等方面建立评价指标体系时,由于管理部门已经掌握了大量的原始数据,更多注重主成分分析 (简称PCA ),而将Delphi法放在次要地位1。但是,PCA法对原始数据的可靠性、一致性以及规范性十分敏感,如果不做相应的处理将 不能得到满意的结果。 图1是未做预处理的数据用SPSS软件进行PCA的输出结果,而图2是经过预处理的数据进行P

4、CA的输出结果。两个结果对比可见,在最大特征值和主成分的累计贡献上存在着很大差异。Total Variance ExplainedComponentIniti al EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumul ative %Total% of VarianceCumula tive %14.56535.11535.1154.56535.11535.11522.54119.54854.6632.54119.54854.66331.46811.29065.9531.46811.29065.9534.84

5、16.46672.4195.7575.82278.2416.6615.08183.3237.5634.33387.6558.4193.22790.8829.3963.04493.92510.3162.42796.35311.2602.00298.35512.1931.48899.843132.046E-02.157100.000Extraction Method: Principal Component Analysis.未做预处理的数据进行 PCA的输出结果Total Variance ExplainedComponentIniti al EigenvaluesExtraction Sums

6、 of Squared LoadingsTotal% of VarianceCumul ative %Total% of VarianceCumul ative %17.03654.12554.1257.03654.12554.12522.34618.04372.1682.34618.04372.16831.38510.65682.8241.38510.65682.8244.6454.96587.7895.4513.46891.2576.3202.46193.7177.2381.82995.5478.2061.58897.1349.1501.15798.29110.121.92899.2191

7、18.422E-02.64899.867121.599E-02.12399.990131.353E-031.040E-02100.000Extraction Method: Principal Component Analysis.图2经过预处理的数据进行PCA的输出结果2 数据的可靠性分析与处理在教育装备管理部门进行数据统计时,由于管理上的疏漏或下级单位对呈报数据的不理解,往往造成原始数据中存在着大量的虚假数据。在进行PCA前必须对这些数据做预处理,剔除虚假数据。用 SPSS软件进行这方面的分析和处理是十分方便的2。首先,可以用SPSS的数据分布图象的功能(“ Graphs” Histogr

8、am ”)对原数据进 行处理,得到数据分布的直方图。图3是国内某地区1200个小学专用教室个数分布的直方图。Std. Dev = 7.25Mean = 5.8N = 1200.00X03图3未做预处理数据的分布图从该图可以看出,样本数(学校数N)为1200个,学校具有专用教室数的平均值(Mean)为5.8,标准差(Std.Dev)为7.25。同时还可以从分布图上看出,数据存在着大量的偏离值,而且最大偏离值已经超过220 (即一个小学有 200多个专用教室已经非常不可信了)。进一步,用 SPSS 的频数分析功能(“ Analyze ” 宀 “ Descriptive Statistics” 宀F

9、requencies)可 得数据频数统计分析表(见图4)。由该分析表可见,具有专用教室数在20个以内的学校已经占全部学校总数的 99.3%,具有20个以上专用教室数的学校只有8个,其中有59个、77个和221个专用教室的学校各有 1个。显然应将这3个学校的数据剔除掉。进一步根据实际情况分析,可将具有 30个以上专用教室学校的数据剔除掉。X03Freque ncyPerce ntValid Perce ntCumul ativePerce ntValid.U010.81.00342.82.83.72.00816.86.810.43.0018815.715.726.14.0020817.317.3

10、43.45.0020617.217.260.66.0014412.012.072.67.001139.49.482.08.00615.15.187.19.00373.13.190.210.00272.32.392.411.00262.22.294.612.00171.41.496.013.008.7.796.714.008.7.797.315.0011.9.998.316.004.3.398.617.006.5.599.118.001.1.199.219.001.1.199.320.001.1.199.321.001.1.199.424.001.1.199.526.001.1.199.630.

11、001.1.199.731.001.1.199.759.001.1.199.877.001.1.199.9211.001.1.1100.0T otal1200100.0100.0图4未做预处理数据的频数统计输出剔除可靠性差的数据,可以借助SPSS软件来完成(“ Data”f Select CaseS IfCo nditi on ”宀if ”宀选择筛选条件”宀 Co ntinue ”宀Un selected Cases Are-Deleted)。 上述数据经筛选剔除后再进行频数统计分析和输出数据分布直方图如图5所示。Std. Dev = 3.12Mea n = 5.5N = 1195.000.0

12、2.55.07.510.012.515.017.520.022.525.0X03图3做过预处理数据的分布图当然,对所有评价项目(变量) 的数据都应做类似的处理。做过可靠性分析和处理的数 据可以进一步做一致性分析与处理。3 数据的一致性分析数据的一致性是针对 PCA对数据的要求提出的。PCA的原理是通过对变量之间相关性 分析,达到整合变量而实现降维(降低变量个数)的目的。PCA要求各变量的样本值基本呈正态分布,并且许多变量之间存在着线性相关性(即多重共线性);如果各个变量之间是相互独立的或线性无关的,也就不能或没有必要做PCA 了。用SPSS软件的分析功能(“Analyze”宀“Data Red

13、uction”宀Factor)可以对数据中 各变量的线性相关性做分析。表 1是某地区小学办学条件数据的相关性分析,由SPSS输出的相关系数矩阵;其中各个变量所代表的意义开列在表2中。表1 Correlation Matrix(相关系数矩阵)X01X02X03X04X05X06X07X08X09X10X11X12X13X011.000.975.345.347.190.233.142.103.178.214.103.826.745X02.9751.000.360.395.196.252.171.115.206.245.121.841.795X03.345.3601.000.254.061.087.

14、076.034.072.108.060.370.325X04.347.395.2541.000.070.133.162.126.183.183.082.413.447X05.190.196.061.0701.000.586.091.078.095.085.044.162.098X06.233.252.087.133.5861.000.091.088.177.133.079.190.144X07.142.171.076.162.091.0911.000.599.609.633.396.134.251X08.103.115.034.126.078.088.5991.000.443.510.388.

15、092.163X09.178.206.072.183.095.177.609.4431.000.586.440.114.262X10.214.245.108.183.085.133.633.510.5861.000.456.211.312X11.103.121.060.082.044.079.396.388.440.4561.000.105.183X12.826.841.370.413.162.190.134.092.114.211.1051.000.755X13.745.795.325.447.098.144.251.163.262.312.183.7551.000表2变量所代表的意义变量名

16、X01X02X03X04X05X06影响因子:学生人数班数规模专用教室公共用房运动场地活动面积X07X08X09X10X11X12X13理科设备文科设备艺术设备体育健康实践活动P教育技术图书资料一般认为相关系数大于0.8时两变量才是具有强线性相关性的。从表1中的数据可见,各个变量的相关性是比较弱的。例如:变量X05和X06的相关系数仅为0.586,这两个变量分别代表学校运动场地和学生室外活动面积,而一般学校的这两项指标应该是一致的,即运动场地多,学生活动空间就相应大一些。可以使用SPSS软件的相关性分析功能(“Analyze ”t “ Correlate ”宀“ Bivariate ”)对该两

17、项数据做进一步的比对分析。表3显示的是数据分析的结果。其中0.586是两变量的相关系数,0.000是两变量完全不相关假设成立的概率, 1200是样本数。分析说明两变量应有较强的相关性。如果将两个变量的分布直方图进行比 对(如图4),可以发现它们在横坐标原点附近存在较大差异。表3Correlatio ns(相关系数)X05X06X05Correlation1.000.586Sig. (2-tailed).000N12001200X06Correlation.5861.000Sig. (2-tailed).000N12001200图4X05与X06的分布图在教育装备管理中,上述分析结果说明大量学校

18、虽然具有较大的学生活动空间,但是由于装备设施的缺乏,运动场地(足、篮、排球场)严重不足。应该加强这些学校运动场地的 设备投入和建设。同样,如果学校藏书数与杂志种类数、实验设备数与实验教室数、学生人数与班级个数、,等等有严重的不一致,则说明在这些方面的管理存在问题。4 数据的规范性处理PCA前数据的规范性处理是指数据的无量纲化(如:归一化处理)和规格化(如:将 数据整理成均值为 0,方差为1的Z标准化处理)。这些处理是进行 PCA时必须事先进行的。 但是,如果我们使用 SPSS软件做PCA,则因为SPSS软件在做PCA前自动对数据进行上 述处理,所以可以免去我们人工对数据进行规范性处理的过程。参考文献:1艾伦 艾霁野,马尔可夫分析在达标评价预测上的应用(J),中国教育技术装备,2008年7月下第14期总143期X05X062陈平雁 黄浙明,SPSS 10.0统计软件应用教程(M ),人民军医出版社,:2002年4月第1版

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1