信息分析方法课件.ppt

上传人:本田雅阁 文档编号:2843915 上传时间:2019-05-27 格式:PPT 页数:67 大小:922.05KB
返回 下载 相关 举报
信息分析方法课件.ppt_第1页
第1页 / 共67页
信息分析方法课件.ppt_第2页
第2页 / 共67页
信息分析方法课件.ppt_第3页
第3页 / 共67页
信息分析方法课件.ppt_第4页
第4页 / 共67页
信息分析方法课件.ppt_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《信息分析方法课件.ppt》由会员分享,可在线阅读,更多相关《信息分析方法课件.ppt(67页珍藏版)》请在三一文库上搜索。

1、2019/5/27,1,信息分析方法,赵俊杰 Tel:010-58882325 Email:,徐 峰 Tel:010-51501774 Email:,中国科学技术信息研究所,2019/5/27,2,主要内容,定量分析方法 简单线性分析方法回归分析法 多元统计分析方法因子分析法 聚类分析法 定量与定性相结合的方法 层次分析法及应用 系统动力学分析方法,2019/5/27,3,回归分析方法,2019/5/27,4,中国1991-2004年投入及SCI论文数,案例,2019/5/27,5,案例,2019/5/27,6,回归分析方法,回归分析方法是对变量之间统计关系进行分析的一种数理统计方法。 作用:

2、 便于观察变量间的关系,了解变量所反映的一些实际问题。 用于简单的预测,可以利用回归分析建立进行预测的回归模型:但要注意在统计检验的基础上保证预测的可靠性 方法: 对数据进行数学表达回归方程 确定各参数 统计检验,2019/5/27,7,线性回归: 一元线性回归: Y = a + bX 多元线性回归: Y=c0+c1X1+c2X2+.+cmXm 非线性回归 多项式:Y = b0 + b1X + b2X2 + . + bkXk 幂函数 :Y = aXb 指数函数:Y = abx,主要的回归方程类型,2019/5/27,8,最常用的回归方程建立方法 最小二乘法:思路,设拟合函数为 Y=f(X1,X

3、2,.,Xm), Xi(i=1,2,.,m,指自变量) 对于各观测点k=1,2,.,n,有估计值: Yk=f(Xik) 观测值: Yk (k=1,2,.,n) 各观测值与实际函数值之间存在误差(Yk-Yk), 使观测值与估计值之差的平方和目标函数为极小 min (Yk-Yk)2 由此可计算出中各参数。,2019/5/27,9,对一元线性回归函数,有:,2019/5/27,10,回归检验,可能存在的问题: 数据量太小,拟合度、相关系数很高,但不具备统计上的显著相关性。 原始数据的点过分集中在一个小区域,可能建立起不同形式的回归方程来对应同一组数据,它们与原始数据的拟合程度都比较接近,从而产生了不

4、确定的情况。 所以,仅根据相关分析中的拟合程度或简单相关系数的绝对值大小来判断是不充分的。可能还需要对回归方程进行更严格的统计检验。,对于线性回归,可以根据相关分析来判断因变量与各自变量间成直线关系的密切程度,因而也是判断曲线拟合优劣度的一个标准。,2019/5/27,11,小结,回归分析方法是分析变量间线性关系的一种方法 在做回归分析时,应先将数据做成便于观察的图(如散点图),然后根据对数据图表的观察选择适当的回归模型做分析 对回归模型做相应的检验,可以根据检验来判断所先模型的适当与否,2019/5/27,12,Excel软件的数据分析功能,因子分析法,2019/5/27,14,林登(Lin

5、den)对奥林匹克十项全能比赛得分作的因子分析。 十项全能项目为:100米跑(x1)、跳远(x2)、铅球(x3)、跳高(x4)、400米跑(x5)、110米跨栏(x6)、铁饼(x7)、撑杆跳高(x8)、标枪(x9)、1500米跑(x10)。 四个因子:短跑速度、爆发性臂力、爆发性腿力 和耐力。,案例,2019/5/27,15,因子分析简介,因子:用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间是不相关的,代表各类信息的综合指标称为因子。 因子分析:用少数几个公共因子来描述许多指标或因素之间的联系,以较少的几个因子反映原始资料的大部分信息的统计学方法。 特点: 因子变量的数量远少于

6、原始指标变量的数量,方便分析研究; 因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息; 因子变量之间不存在相关关系,对变量的分析比较方便; 因子变量具有命名解释性,即该变量是对某些原始变量信息的综合反映。,2019/5/27,16,数学模型,2019/5/27,17,几个概念,因子载荷aij :因子之间完全不相关时,为第i个原有变量和第j个因子变量的相关系数,即xi在第j个公共因子变量上的相对重要性。 aij 绝对值越大,则公共因子Fj和原始变量xi关系越强。 变量共同度(公因子方差、公共方差):反映全部公共因子变量对原有变量xi的总方差解释说明

7、比例。 公共因子Fj的方差贡献:反映了该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。,2019/5/27,18,因子分析的计算方法,因子分析通常根据样本变量的相关矩阵或协方差矩阵来计算 根据相关矩阵或协方差矩阵,计算其特征值,根据特征值的大小(或正负)来选取因子 基本原因,矩阵计算出来的不同的特征值对应的特征向量是不相关的,也就是说,计算出来的各因子之间是不相关的。,2019/5/27,19,因子分析的基本步骤,确定待分析的原有若干变量是否适合于因子分析:相关分析,计算变量间的相关系数矩阵; 构造因子变量:主成分分析法、主轴因子法、极大似然法、最小二乘法等; 利用旋转使

8、得因子变量更具有可解释性; 计算因子变量的得分:每一样本数据在不同因子上的具体数值。,2019/5/27,20,因子个数的确定,特征值准则:取特征值大于等于1的主成分作为初始因子。 根据因子的累计方差贡献率来确定。,2019/5/27,21,因子分析的检验,SPSS中提供了两种重要的检验 KMO样本精度检验,用于判断变量间的相关性,以及其相关性是否适于进行因子分析, Bartlett球型检验,用于判断变量矩阵是不是单位矩阵,2019/5/27,22,小结,因子分析是一种十分常用的多元统计方法,由于对影响研究对象的变量进行了降维处理,有助于我们对研究对象的理解 因子分析通常是对多变量,大样本量进

9、行的一种统计分析,对于变量和样本量均有一定的要求,通常变量与样本量的比例不应少于1:5,这样才可能会有比较好的效果 因子的可解释性是因子分析得到广泛应用的重要原因,聚类分析方法,2019/5/27,24,聚类分析:思考,“物以类聚,人以群分”,现实世界中存在大量的分类问题: 学生成绩分等级; 国家经济发展状况的分类(人均国民收入、人均工农业产值、人均消费水平等统计指标); 人体健康水平的分类; 学科门类; ,2019/5/27,25,聚类分析 (Clauster Analysis),数值分类法的一种,在社会应用中称类型学。 Robert Tryon于1939年提出的一种心理学研究方法。 目的:

10、用数量关系对事物进行分类。 对于可以用某些数量描述的事物,采用样本间的距离来将性质接近的事物归为一类,从而达到对事物的分析和评价。 聚类分析作分类时各类群乃至类群数事先未知,而是根据数据的特征确定的,又称为无师可循的分类。 一般分为逐步聚类、系统聚类和其它方法。,2019/5/27,26,消费性支出数据,(单位:元),数据来源:2000年中国统计年鉴,数据示例,2019/5/27,27,1.系统聚类法,在开始时不选重心,而是令各样本自成一类; 计算各样本间的距离或相似度,使距离最近的,或相似度最大的两个样本并成一类; 计算合并后的各类间的距离或相似度,使距离最小的或相似度最大的两类并成一类。

11、重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类,或直到满意的分类为止。 判据:距离最小或相似度最大。,2019/5/27,28,样本之间的距离明氏距离,Q为样本所在空间的维度。 当各变量单位不同或测量范围相差很大时,要对变量进行标准化处理。,2019/5/27,29,样本之间的距离兰氏距离,兰氏距离与各变量的单位无关。对大的异常值不敏感,故适用于高度偏斜的数据。 明氏距离和兰氏距离都没有考虑变量之间的相关性,因此,这两种距离更适合于变量之间互不相关的情形。,2019/5/27,30,样本之间的距离马氏距离,马氏距离考虑了各变量之间的相关性,且与各变量的单位无关。 S难以确定,

12、S不应随聚类过程而变化。实际聚类分析中,马氏距离不理想。,2019/5/27,31,相似系数:表示样本之间的相似度,相关系数: 夹角余弦,2019/5/27,32,类间距离的计算,最大距离法 又称完全连接法,是以两类间最远的样本间的距离为类间距离; 最小距离法 又称单连接法,是以两类间最近的样本间距离为类间距离; 中间距离法 以两类间最大和最小距离之中值为类间距离; 类平均法 以两类样本间距离的平均值为类间距离; 重心法 类与类之间的距离定义为它们的重心(均值)之间的欧氏距离 。 离差平方和法 类中各样本到类重心的欧氏距离平方之和称为(类内)离差平方和。反映了各类内样本的分散程度。两个较近的类

13、合并后所增加的离差平方和最小。(与样本数有较大的关系),2019/5/27,33,2019/5/27,34,聚类结果的输出,树状图 还表征出类与类之间的相对接近或距离程度。,2019/5/27,35,刷状图 从上而下或从左而右,可分别反映出不同类的情况。,2019/5/27,36,2 逐步(动态)聚类法,基本思路:在计算之前,先选取选择一批凝聚点或给出一个初始的分类,让样本按某种原则向凝聚点凝聚(距离最近、或相似度最大),对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。,2019/5/27,37,均值法,(1)选择个样本作为初始凝聚点,或者将所有样品分成个初始类,然后将这个类的重

14、心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样本归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。,2019/5/27,38,2019/5/27,39,需要特别注意,变量的选择(应具有代表性,重要性、变量决定类群特征) 数据的预处理(标准化处理) 各种方法的比较 系统聚类:容易把握各对象间的关联,任意分类,分类客观,不受其他因素影响;但计算量大。 逐步聚类:经验、计算量少;但分类效果不稳定、数据间关联程度把握欠缺。 类的个数 给定一个阈值:要求类间距离大

15、于阈值。 观测样本散点图:两个或三个变量,多个变量综合成两个或三个变量,通过散点图确定类的个数。 使用统计量。,2019/5/27,40,小结,聚类分析法是按样本(或变量)的数据特征,把相似的样本倾向于分在同一类中,把不相似的样本倾向于分在不同类中。 距离和相似系数反映了样本之间的相似程度。相似程度越高,一般两个样本间的距离就越小或相似系数就越大,反之亦然。 系统聚类是一种常用的聚类方法,常用的有最短距离法、最长距离法、中间距离法、类平均法、重心法和离差平方和法。在许多应用中,类平均法和离差平方和法效果相对较好。 逐步聚类(动态聚类)法是用于大数据集的一种聚类方法。,2019/5/27,41,

16、SPSS软件简介,SPSS软件是国际上最早的统计分析软件,1984年首先推出了世界上第一个统计分析软件微机版。迄今SPSS软件已有30余年的成长历史。 全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。 用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件进行特定学科的统计分析了。,美中不足的是,SPSS输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能用拷贝、粘贴的方式加以交互。,2019/5/27,42,定性定量的方法,2019/5/27,43,层次分析

17、法( The Analytic Hierarchy Process,AHP),2019/5/27,44,层次分析法简介,20世纪70年代由美国著名运筹学家、匹兹堡大学教授T.L.Saaty提出。,一种多目标决策方法。 对主观判断进行定量描述。 主要用于优先方案的选择和评价体系的确定。 与德尔菲法相结合,可以得出较满意的结果。,2019/5/27,45,将一个复杂的问题分解成若干层次,建立起有序的梯阶层次结构(即层次结构模型),每一层次中的元素具有大致相等的地位,且与上一层次和下一层次有着一定的联系。 并使人的经验和判断能够用数量形式加以表达和处理。即对因素的重要性进行两两比较,把两两比较的结果

18、作为判断矩阵的元素,构造判断矩阵,通过求解该矩阵的最大特征根及对应的特征向量,获得其相对重要性的排序结果。 对比较和判断结果进行严格的逻辑分析和统计检验,保证了众多的判断元素及判断矩阵在综合过程中的思维一致性。,1 方法的思路和基本原理,2019/5/27,46,2 层次分析法的实施程序,2019/5/27,47,Saaty认为,每个层次的元素的数量最好不超过9个。,(1)建立层次结构模型,2019/5/27,48,(2)建立判断矩阵,2019/5/27,49,判断矩阵构建方法:1-9 标度法,2019/5/27,50,一致性检验,一致性指标 CI:CI=(max-n)/(n-1) 平均随机一

19、致性指标 RI: 随机一致性比率 CR:CR=CI/RI0.10,主要用于判断逻辑性错误,如 AB,BC,CA AB,BC,AC,一致性检验,实际目的,2019/5/27,51,Expert Choice(EC)软件简介,Expert Choice软件是以层次分析法(AHP)为基础的客观决策支持工具,判断的层次标准都表现在软件的hierarchical structure上,决策者可融合自身问题的层次并做出重要的判断。在 Expert Choice决策过程结束之后,决策者可借助于简单明了的结果,理解决策是如何产生的。 网址:http:/ Choice应用领域, 资源分配(Resource Al

20、location) 资源选择(Source Selection) 人力资源管理(Human Resource Management) 员工表现评估(Employee Performance Evaluation ) 薪资决策(Salary Decisions) 制定市场策略(Formulating Marketing Strategy) 决策分析(Selecting Alternatives) 预测支出(Predicting Likely Outcomes) 分析规划(Analytical Planning) 促进团体决策(Facilitating Group Decision Making)

21、 收益/成本分析(Benefit/Cost Analysis) 工程设计评估(Engineering Design Evaluations) 生产作业管理(Production and Operations Management) 策略分析及评估(Policy Formulation and Evaluation) 评估获益和合并(Evaluating Acquisitions and Mergers) 供货商评估(Supplier Evaluation) 信用分析(Credit Analysis) 顾客反应(Customer Feedback) IT投资管理(IT Portfolio Man

22、agement) 产品定价(Product Pricing Decisions) 创新管理(Innovation Management),2019/5/27,53,软件Expert Choice(EC),系统动力学法及 Vensim软件简介,2019/5/27,55,系统动力学方法简介,系统动力学方法是一种以反馈控制理论为基础,以计算机仿真技术为手段,通常用以研究复杂的社会经济系统的定量方法。自50年代中美国麻省理工学院的福雷斯特(Jay W. Forrester)教授 于1956创立以来,它已成功地应用于企业、城市、地区、国家甚至世界规模的许多战略与决策等分析中,被誉为“战略与决策实验室”。

23、,2019/5/27,56,系统动力学基本概念,(1)系统:一个由相互区别、相互作用的各部分有机地联结在一起,为同一目的而完成某种功能的集合体。 (2)反馈:系统内同一单元或同一子块其输出与输入间的关系称为“反馈”。对整个系统而言,反馈则是指系统输出与来自外部环境的输入的关系。 正反馈:能产生自身运动的加强过程,在此过程中运动或动作所引起的后果 将回授使原来的趋势得到加强。 负反馈:能自动寻求给定目标,未达到目标时将不断作出响应。 (3)反馈回路:由一系列的因果与相互作用链组成的闭合回路。分为正反馈回路和负反馈回路。,2019/5/27,57,正反馈回路,具有正反馈特性的回路称为正反馈回路。

24、特性:非稳定、非平衡、增长、自增强,正反馈回路举例: 人口增长同 人口基数的关系,2019/5/27,58,负反馈回路,具有负反馈特性的回路称为负反馈回路。 力图缩小系统状态相对于目标状态的偏离。 为稳定回路、平衡回路或自校正回路。 例:空调的恒温部分。,2019/5/27,59,社会小系统存款与收入,举例,2019/5/27,60,系统动力学认为:反馈回路是构成系统的基本结构。一个复杂系统则是由这些相互作用的反馈回路组成的。 一个反馈回路就是由状态、速率、信息三个基本部分组成的基本结构。一个复杂系统则按一定的系统结构由若干相互作用的反馈回路所组成;反馈回路的交叉、相互作用形成了系统的总功能。

25、,系统的基本结构,2019/5/27,61,系统的变量,状态变量(L):描述系统在任一特定时刻的状态,是随时间而变化的累积量,是物质、能量与信息的存储环节。构造方程时用“状态变量方程”表示。 速率变量(R):表示状态变量变化的快慢。用“速率方程”表示:描述控制作用的政策表达式,即速率方程公式表示了决策环节所产生的控制作用。 辅助变量(A):描述信息的辅助方程中的变量。,2019/5/27,62,举例,2019/5/27,63,系统动力学软件,Vennata Systems, Inc.: Vensim Http:/ High Performance Systems, Inc.: ithink,

26、STELLA http:/www.hps- http:/www.systemdynamics.org/,2019/5/27,64,Vensim简介,Vensim是由美国Ventana Systems, Inc.所开发,为一可观念化、文件化、模拟、分析、与最佳化动态系统模型之图形接口软件。 Vensim可提供一种简易而具有弹性的方式,以建立包括因果循环(casual loop)、存货(stock)与流程图等相关模型。 使用Vensim建立动态模型,我们只要用图形化的各式箭头记号连接各式变量记号,并将各变量之间的关系以适当方式写入模型,各变量之间的因果关系便随之记录完成。而各变量、参数间之数量关系

27、以方程式功能写入模型。 透过建立模型的过程,我们可以了解变量间的因果关系与回路,并可透过程序中的特殊功能了解各变量的输入与输出间的关系,便于使用者了解模型架构,也便于模型建立者修改模型的内容。,2019/5/27,65,Vensim 的不同版本,It is a simplified version of Vensim designed for learning how to build and analyze models. For many people it will be completely sufficient.,Adds to PLE easer use of data,and sensitivity simulation capabilities.,Allows you to use subscript to represent more detail with less effort, and also supports optimization.,Include the ability to construct management flight simulatiors and also to use external functions and compiled simulations.,2019/5/27,66,Vensim界面,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1