管理信息学第6章.ppt_三一文库31doc.com

资源描述

《管理信息学第6章.ppt》由会员分享，可在线阅读，更多相关《管理信息学第6章.ppt（42页珍藏版）》请在三一文库上搜索。

1、2019/2/19,6.3.1 多元数据的相关分析 6.3.2 聚类分析 6.3.3 判别分析 6.3.4 回归分析 6.3.5 时间序列分析,6.3 信息处理的统计学方法,2019/2/19,信息处理是使用适当的信息处理方法从样本数据集中自动抽取有用的规则（知识）。针对不同的处理目标，支持信息处理的方法概括起来可分为：统计学方法、人工智能方法、数据库技术及可视化技术等几类。在实际应用中，信息处理方法往往是集成多项技术。,6.3 信息处理的统计学方法,2019/2/19,信息加工的统计学方法,2019/2/19,多元数据的相关分析多元数据是指含有多个随机变量(常对应信息系统中的属性)的一组

2、数据，多元数据的相关性分析就是找出各随机变量之间的关联关系。,6.3.1 多元数据相关分析,一切客观事物都是相互联系的，任一事物的变化都与其周围的其他事物相互联系和相互影响。客观现象之间的相互联系，可以通过一定的数量关系反映出来。现象之间的关系形态有两种类型：函数关系和统计相关关系。,多元数据相关分析,统计相关关系是变量之间存在的不完全确定性的关系。在实际问题中，许多变量之间的关系并不是完全确定的，例如居民家庭消费与居民家庭收入这两个变量的关系就不是完全确定的。,多元数据相关分析,相关的种类,2019/2/19,聚类分析聚类分析是把研究对象按照一定的规则分成若干类别，并使类之间的差别尽可能

3、地大，类内的差别尽可能地小，换句话说，使类间的相似性最小、而类内的相似性最大。聚类方法的核心问题是样本间的相似性度量，通常用距离来度量。,6.3.2 聚类分析,2019/2/19,聚类分析中的常用距离 (1)欧氏(Euclidean)距离 (2)绝对距离 (3)Minkowski距离显然当m = 1时就是绝对距离，m = 2时就是欧氏距离。在实际应用时常分析两个样本之间的相对距离，这时需要对样品数据进行标准化处理，然后用标准化数据计算距离。,聚类分析,2019/2/19,谱系聚类法谱系聚类法是根据给定数据集产生一个层次结构。其基本过程是：开始每个样品各成一类，然后相继将两个最近的类合并

4、成一个新类，直到所有的样品成为一个总类，从而得到一个按相似性大小聚集起来的一个谱系图。,聚类分析,2019/2/19,聚类分析,2019/2/19,动态聚类法动态聚类法是对于给定的 n 个样本，先粗略地形成 k (kn)个类、每个类至少有一个样本并且每个样本精确地属于一个类，然后按照某种原则进行修正，直至分类比较合理为止。,聚类分析,2019/2/19,动态聚类演示,聚类分析,2019/2/19,聚类分析的方法可以应用在很多领域，尤其在商业领域中正在越来越多地使用该方法。例如在销售业企业，聚类分析可被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。消费同一种类的商品或服务时，不

5、同的客户群有不同的消费特点，通过研究这些特点，企业可以制定出不同的营销组合，从而获取最大的消费者剩余，这就是客户细分的主要目的。聚类分析是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的潜在市场、选择实验的市场等。,聚类分析,2019/2/19,判别分析(分类) 判别分析或分类是指在得到一个新的样本数据时，判别该样本所属的类别。距离判别方法朴素贝叶斯(Bayes)判别方法：朴素（naive）贝叶斯判别法是依据数据点属于各类的可能性大小对数据点进行分类，采用的准则是把数据点分到可能性最大的类。,6.3.3 判别分析,2019/2/19,回归分析回归分析是应用极其广泛的数据分析方法

6、，它基于样本数据建立变量间适当的依赖关系，以分析数据的内在规律。线性回归模型和非线性回归模型等。,6.3.4 回归分析,2019/2/19,回归分析研究一个或多个随机变量Y1 , Y2 , Yi 与另一些变量X1, X2, Xk 之间的依赖关系。通常称Y1, Y2, Yi 为因变量，X1, X2, Xk 为自变量。当因变量和自变量为线性关系时，它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量，这叫一元线性回归，即模型为 Y = a + bX + ，这里 X 是自变量，Y 是因变量，是随机误差，,回归分析,2019/2/19,图大白鼠的进食量与增加体重回归直线,回归分析,2

7、019/2/19,回归分析在管理决策中的应用主要体现在以下两个方面：（1）因素分析。在现实生活中，某一项结果的产生，可能是很多个因素共同作用的结果。例如在医学研究中, 有关生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、遗传、病史等许多因素有关。使用回归分析，我们可以发现到底是哪些因素对结果产生了影响，从而帮助我们做出正确的判断。（2）预测。预测经常取决于对两个或更多个变量的分析。其中，两个变量之间的回归分析称为一元回归，三个或三个以上变量之间的回归分析称为多元回归。例如，广告费和销售收入之间的关系是一元回归，而消费支出与收入及商品价格之间的关系则是多

8、元回归。,回归分析,2019/2/19,时间序列分析时间序列是按时间序列排列的、随时间变化且相互关联的数据序列(趋势性、季节性、随机性),时间序列分析就是通过对时间序列样本进行分析，构造事件发生的数学模型，从而达到认识事物、了解其变化规律的目的。当模型建立完成后就能根据模型对事件进行预测或控制。,6.3.5 时间序列分析,2019/2/19,2019/2/19,时间序列分析方法算术平均法设长度为 n 的时间序列样本为x1, x2, , xn。则下一个时间点的预测值为：这种方法只适合时间序列比较稳定的情况，它不能反映时间序列的变化趋势和季节变动。,时序分析,2019/2/19,移动平均法

9、移动平均法基于假设未来的序列与近期的序列有关，而与过去较远的序列关系不大。移动平均法的分析思路是每完成一次预测，就要舍弃最旧的一个数据而补充最新的一个数据。,时序分析,2019/2/19,2019/2/19,加权移动平均法在实际数据中，有些时间序列具有一定的周期性或单调性，不同时间的数据影响不同，这时就可以用权重加以衡量。,指数滑动平均法借助于加权因子，用当前的实际值（新信息）去修正上次的预测值，来得到下次的值。,时序分析,2019/2/19,季节性影响因子时间序列除了趋势性、相关性、随机性以外，还常常具有周期性和季节性。把季节性因素作为分量对时间序列进行分解。季节性应理解为同期中具有

10、相同特征的对应时间段。,时序分析,2019/2/19,例：我们考虑表中的数据。这些数据是某个汽油批发商在过去12周的汽油销售量。根据表中的汽油销售量时间序列，用指数滑动平均法进行预测。,时序分析,2019/2/19,机器学习的主要任务是从模拟人类的学习行为出发，研究客观世界和获取各种知识与技能的一些基本方法，并借助于计算机科学与技术原理建立各种学习模型，从根本上提高计算机智能和学习能力。研究内容包括根据生理学、认知科学对人类学习机理的了解，建立人类学习的计算模型或认知模型；发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析；建立面向任务且具有特定应用的学习系统等。,6.4 信息

11、处理的机器学习方法,2019/2/19,信息加工的机器学习方法,上图表示学习系统的基本结构。环境向系统的学习部分提供某些信息，学习部分利用这些信息修改知识库，以增进系统执行部分完成任务的效能，执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分。,机器学习使用的学习方法主要是归纳法和演绎法等。归纳法主要基于观察对象来形成一般性知识，提取事物的一般规律；它是一种从个别到一般的推理，产生的知识是先前知识库中所没有的；演绎法是用知识库中已有的知识来形成新的知识，如基于解释的学习是利用先前的知识来解释新的事件，然后简化该解释并存放于知识库中。,2019/2/19,信息加工的机器学习方法,20

12、19/2/19,决策树方法,决策表样本数据集,2019/2/19,所谓决策树是一个类似流程图的树结构，其中树的每个结点对应一个特征（属性）变量值的检验，每个分枝表示检验结果，树枝上的叶结点代表所关心的因变量的取值，最顶端的结点称为根结点。从根结点到每个叶结点都有唯一的一条路径，这条路径就是一条决策“规则”。如果每个内结点都恰好有两个分枝，则称为二叉树。,决策树方法,心血管,手术,病情,A,B,A,A,B,心悸,心绞痛,心律不齐,是,危,否,急,2019/2/19,决策树方法,图示决策树是一个信用卡公司用来决定是否向客户发出办卡的邀请，树中从根节点到每个叶子节点的路径，都可以转化成一条IFTH

13、EN规则。,2019/2/19,在管理中经常面对一些不确定信息。不确定性来自人类主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性，都反映了这种差异，都会带来不确定性。不确定性造成了具有相同描述信息的对象可能属于不同的概念。提高处理不确定性信息的有效性，对帮助决策具有重要意义。,6.5 不确定信息的处理方法,2019/2/19,模糊集理论,2、模糊集理论模糊信息本身是确定性的, 但其特征无法用精确数学工具描述和刻划(属性值确定，概念模糊)。模糊信息的特征用模糊集刻划，它给出了总体中的元素与所刻划的特征之间的隶属程度

14、。(隶属函数),1、概率论任何一个模式 X 的出现具有随机性,用概率 P(X) 去决定X 发生的可能性大小,从而决定 X 的分类。,2019/2/19,设ai表示属性“年龄”，当ai的值域是离散的且为幼儿,儿童,少年,青年,中年,老年时，某对象是否是中年由属性ai的值完全确定，此时只有当ai(xj)“中年”时，隶属度为1，其余为0；当ai的值域是连续区间(0, 120)时，若中年的概念是精确地定义在40,50年龄段，则隶属函数是分段函数：若中年的概念是模糊的，如大约45左右，则隶属函数可能是某种正态分布。,模糊集理论,2019/2/19,3、灰集理论灰信息所刻划的对象是指部份信息已知,部

15、份信息未知。灰信息处理的目标是把未知信息变为已知信息的过程,即信息白化。它用上下隶属度函数将灰集中的未知信息约束在两个模糊集之间。 4、未确知有理数未确知理论是用来处理一类客观上是确定的但主观上无法获得的一类信息，如“某建筑物的重量是多少”。利用置信度模型分析未确知信息(x是确知成份a的置信度),灰集理论与未确知有理数,2019/2/19,5、集对理论集对分析用联系度统一处理模糊、随机、信息不完全所导致的系统不确定性。其基本思想是系统中不只存在某个单纯的不确定性信息,而是多种不确定性都存在。 6、证据理论证据是指我们的经验、知识以及对问题的观察和研究的结果，用基本可信度分配来描述。证据理

16、论引入信度函数描述事物处于某种状态的可能性。它无需准确知道事物状态变化的概率。,集对理论与证据理论,2019/2/19,7、粗糙集理论模糊集理论处理的是因为概念的模糊而导致的对象分类模糊，粗糙集方法处理的是由于属性值模糊引起的对象分类模糊。粗糙集理论反映了人们以不完全信息或知识去处理一些不可分辨现象的能力，或依据观察、度量到某些不精确的结果而进行分类数据的能力。粗糙集理论的基本思想： (1)知识是主体对论域中的客体进行分类的能力，分类能力越强，主体所具备知识的可靠度越高；,粗糙集理论,2019/2/19,(2)分类能力受主体分辨能力的影响，因此分类具有近似性； (3)影响分类能力的因素(

17、在信息系统中常描述为属性)很多，不同的因素重要程度不同，其中某些因素起决定性作用； (4)具有相同属性的实体，属性取值的不同对分类能力也产生影响； (5)属性之间存在某种依赖关系。粗糙集方法能够解决的基本问题：(1)根据属性值表征对象集；(2)发现属性间的(完全或部分)依赖；(3)冗余属性(数据)的简化；(4)发现最重要的属性(核)；(5)生成决策规则。,粗糙集理论,贝叶斯网络（Bayesian networks）是以贝叶斯方法为基础的一种图形模式，它具有直观的问题表达能力和强大的推理能力，是描述不确定问题的优秀工具，近年来在专家系统、模式识别、决策支持系统等领域取得了成功的应用。关于一组变量的贝叶斯网络由两部分组成：（1）一个有向无环图S，图中的节点与U中的变量一一对应，图中的有向边表达了变量之间的统计相关性。（2）与每一个变量相联系的条件概率分布P。S 和P 定义了U的联合概率分布。,2019/2/19,贝叶斯网络,2019/2/19,贝叶斯网络,

展开阅读全文