1、 MULTIVARIATESTATISTICSANALYSIS多元统计分析多元统计分析 zf一、什么是多元统计分析一、什么是多元统计分析v多元统计分析是运用数理统计的方法来研究多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是多变量(多指标)问题的理论和方法,是一一元统计学的推广元统计学的推广。v多元统计分析是研究多个随机变量之间相互多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科依赖关系以及内在统计规律的一门统计学科。zf2cxtv有了一元统计的理论和方法,为什么还要多有了一元统计的理论和方法,为什么还要多元统计分析呢?元统计分析呢?v将多
2、个变量用一元方法进行处理,问题不就将多个变量用一元方法进行处理,问题不就解决了吗?解决了吗?事实却与此相悖!事实却与此相悖!zf3cxtv例:考察某高中三年级学生的学习情况。随例:考察某高中三年级学生的学习情况。随机抽取机抽取1212名学生政治、语文、外语、数学、名学生政治、语文、外语、数学、物理等物理等5 5门主课期末考试的成绩。门主课期末考试的成绩。zf4cxt序号政治X1 语文X2 外语X3 数学X4 物理X5199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836
3、88898773607684109582906239117672436778128575503437zf5cxtv若用一元统计方法,每次分析处理一门课程若用一元统计方法,每次分析处理一门课程的成绩。其的成绩。其缺点缺点:丢失的信息太多,分析的结果不能客观全丢失的信息太多,分析的结果不能客观全面地反映该年级学生的学习情况。面地反映该年级学生的学习情况。v要同时分析多门课程的成绩,分析各门课程要同时分析多门课程的成绩,分析各门课程之间的相关关系、相对重要性等问题。需要之间的相关关系、相对重要性等问题。需要借助借助“多元统计多元统计”。zf6cxtv我们用多元统计:我们用多元统计:1 1、用各科成绩
4、的总和作为综合指标,来比较、用各科成绩的总和作为综合指标,来比较学生学习的好坏。学生学习的好坏。2 2、根据各科成绩相近程度对学生进行分类、根据各科成绩相近程度对学生进行分类(成绩好的与差的;文科成绩好的和理科成(成绩好的与差的;文科成绩好的和理科成绩好的等等)绩好的等等)3 3、各科成绩之间的关系(如物理与数学成绩、各科成绩之间的关系(如物理与数学成绩的关系;文科成绩与理科成绩的关系等)的关系;文科成绩与理科成绩的关系等)zf7cxtv多元统计分析优点:多元统计分析优点:分析问题更全面更透彻分析问题更全面更透彻 v能使我们对所研究的问题更全面能使我们对所研究的问题更全面,更深刻的认识更深刻的
5、认识.帮助我们透过现象看本质帮助我们透过现象看本质,发观事物之间内在的本发观事物之间内在的本质规律。质规律。zf8cxt二、多元统计分析的内容和方法二、多元统计分析的内容和方法v1 1、简化数据结构(降维问题)、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。简化但损失的信息又不太多。(1 1)主成分分析)主成分分析 (2 2)因子分析)因子分析 (3 3)对应分析等)对应分析等zf9cxtv指标与指标可能存在相关关系指标与指标可能存在相关关系
6、信息重叠,分析偏误信息重叠,分析偏误v指标太多,增加问题的指标太多,增加问题的复杂性复杂性和和分析难度分析难度 如何避免?如何避免?选用主成分分析或因子分析选用主成分分析或因子分析zf10cxtv例:美国的统计学家斯通例:美国的统计学家斯通(stone)stone)在在19471947年年关于国民经济的研究。他曾利用美国关于国民经济的研究。他曾利用美国19291929一一19381938年各年的数据,得到了年各年的数据,得到了1717个反映国民收个反映国民收入与支出的变量要素,例如雇主补贴、消费入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、资料和生产资料、纯公共支
7、出、净增库存、股息、利息外贸平衡等等。股息、利息外贸平衡等等。zf11cxtv运用主成分分析以运用主成分分析以97.497.4的精度,用的精度,用三新变三新变量量就取代了原就取代了原1717个变量。根据经济学知识,个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入斯通给这三个新变量分别命名为总收入F1F1、总收入变化率总收入变化率F2F2和经济发展或衰退的趋势和经济发展或衰退的趋势F3F3。更有意思的是,这三个变量其实都是可以直更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测接测量的。斯通将他得到的主成分与实际测量的总收入量的总收入I I、总收入变化率总收入
8、变化率I I以及时间以及时间t t因素做相关分析,得到下表:因素做相关分析,得到下表:zf12cxtF1F1F2F2F3F3i ii it tF1F11 1F2F20 01 1F3F30 00 01 1i i0.9950.995-0.041-0.0410.0570.057l li i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l lt t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1zf13cxtv主成分分析得到的主成分(新变量)与原始变主成分分析得到的主成分(新变量
9、与原始变量之间的关系:量之间的关系:1 1、主成分保留了原始变量绝大多数信息。、主成分保留了原始变量绝大多数信息。2 2、主成分的个数大大少于原始变量的数目。、主成分的个数大大少于原始变量的数目。3 3、各个主成分之间互不相关。、各个主成分之间互不相关。4 4、每个主成分都是原始变量的线性组合。、每个主成分都是原始变量的线性组合。zf14cxtv2 2、分类与判别(归类问题)、分类与判别(归类问题)对所考察的变量按相似程度进行分类。对所考察的变量按相似程度进行分类。(1 1)聚类分析:根据分析样本的各研究)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。变量,将性质相似的
10、样本归为一类的方法。(2 2)判别分析:判别样本应属何种类型)判别分析:判别样本应属何种类型的统计方法。的统计方法。zf15cxt例:根据信息基础设施的发展状况,对世界例:根据信息基础设施的发展状况,对世界2020个国家个国家和地区进行分类。和地区进行分类。考察指标有考察指标有6 6个:个:1 1、X1X1:每千居民拥有固定电话数目每千居民拥有固定电话数目 2 2、X2X2:每千人拥有移动电话数目每千人拥有移动电话数目 3 3、X3X3:高峰时期每三分钟国际电话的成本高峰时期每三分钟国际电话的成本 4 4、X4X4:每千人拥有电脑的数目每千人拥有电脑的数目 5 5、X5X5:每千人中电脑使用率
11、每千人中电脑使用率 6 6、X6X6:每千人中开通互联网的人数每千人中开通互联网的人数zf16cxtv具体数据参见(于秀林、任学松,多元统计具体数据参见(于秀林、任学松,多元统计分析,第分析,第9292页)页)v分析结果:将分析结果:将2020个国家分为两类个国家分为两类 第第1 1类(基础设施落后)类(基础设施落后):巴西、墨西哥、:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚马来西亚 第第2 2类(基础设施发达)类(基础设施发达):瑞典、丹麦、:瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、美国、中国台湾、韩国、日本、德国、法
12、国、新加坡、英国、瑞士新加坡、英国、瑞士zf17cxtv如果:我们想知道我国基础设施发展属于哪如果:我们想知道我国基础设施发展属于哪一类型?一类型?运用判别分析运用判别分析 依据:依据:2020个国家的分类结果个国家的分类结果zf18cxtv3 3、变量间的相互联系、变量间的相互联系 一是:分析一个或几个变量的变化是否依一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)赖另一些变量的变化。(回归分析)二是:两组变量间的相互关系(典型相关二是:两组变量间的相互关系(典型相关分析)分析)zf19cxtv4 4、多元数据的统计推断、多元数据的统计推断 点估计点估计 参数估计参数估计
13、 区间估计区间估计 统统 u u检验检验 计计 参数参数 t t检验检验 推推 F F检验检验 断断 假设假设 相关与回归相关与回归 检验检验 卡方检验卡方检验 非参非参 秩和检验秩和检验 秩相关检验秩相关检验zf20cxtv主要讲解:多元正态分布的均值向量及主要讲解:多元正态分布的均值向量及协方差矩阵的估计和假设检验协方差矩阵的估计和假设检验v例:调查某中学同年级调查某中学同年级2222名男女生名男女生,测量其身高测量其身高(cmcm)、)、体重体重(kg)kg)和胸围和胸围(cm),cm),数据见表。试检验数据见表。试检验该中学全体男女生的身体发育状况有无差别该中学全体男女生的身体发育状况
14、有无差别。zf21cxt某中学22名男、女生身体测量资料 男 生 女 生 编号 身高 体重 胸围 编号 身高 体重 胸围 1 171 58.5 81.0 1 152 44.8 74 2 175 65 87 2 153 46.5 80 3 159 38 71 3 158 48.5 73.5 4 155.3 45 74 4 150 50.5 87 5 152 35 63 5 144 36.3 68 6 158.3 44.5 75 6 160.5 54.7 86 7 154.8 44.5 74 7 158 49 84 8 164 51 72 8 154 50.8 76 9 165.2 55 79 9
15、 153 40 70 10 164.5 46 71 10 159.6 52 76 11 159.1 48 72.5 12 164.2 46.5 73zf22cxt一元方差分析的结果一元方差分析的结果 身高身高 体重体重 胸围胸围 组别组别 平均值平均值 标准差标准差 平均值平均值 标准差标准差 平均值平均值 标准差标准差 男男 161.9 6.8 48.1 8.3 74.4 5.9 女女 154.2 5.0 47.3 5.6 77.4 6.6 F值值 8.7*0.1 1.3 *P0.01v从表可以看出,该校男、女生的身高差异有显著性意义,而体重、胸围从表可以看出,该校男、女生的身高差异有显著性
16、意义,而体重、胸围差异无显著性意义。那么差异无显著性意义。那么,该年级全体男女生的身体发育状况有无差别该年级全体男女生的身体发育状况有无差别,我们不能得到一个明确的结论。我们不能得到一个明确的结论。zf23cxtv多元方差分析:可用男、女生的身高、体重、胸围组成的样本均数向量推论该可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量年级男、女生身体发育指标的总体均数向量11和和22相等与否相等与否,得到:得到:F=8.8622F=8.8622,P=0.0008P=0.0008。拒绝该年级男女生身体发育指标的拒绝该年级男女生身体发育指标的总体均数向量相等的
17、假设,从而可认为该校男女生身体发育状总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。况不同。zf24cxt三、多元统计的发展三、多元统计的发展v起源于:起源于:2020世纪世纪2020年代年代 19281928年威沙特(年威沙特(WishartWishart)发表的多元正态发表的多元正态总体样本协方差矩阵的精确分布为开端总体样本协方差矩阵的精确分布为开端v3030年代多元分析在理论上得到迅速发展年代多元分析在理论上得到迅速发展 费希尔(费希尔(Fisher)Fisher)、霍特林(霍特林(HotellingHotelling)等进等进一步发展多元统计。一步发展多元统计。v4040
18、年代在心理学、教育学等领域进行应用年代在心理学、教育学等领域进行应用 因计算量大,发展受到影响因计算量大,发展受到影响zf25cxtv2020世纪世纪5050年代中期年代中期,多元统计在地质、气象、,多元统计在地质、气象、医学、社会学等方面得到广泛应用医学、社会学等方面得到广泛应用 因计算机的出现和发展因计算机的出现和发展v我国:我国:7070年代初期才开始重视多元统计在各领域的年代初期才开始重视多元统计在各领域的应用应用zf26cxt四、多元统计的应用四、多元统计的应用v1、教育学、教育学v2 2、医学、医学v3 3、气象学、气象学v4 4、环境科学、环境科学v5 5、地质学、地质学v6 6
19、考古学、考古学v7 7、经济学、经济学v8 8、社会科学、社会科学等等等等zf27cxtv教育学:教育学:测试学生入学后的考试成绩与入学考试成测试学生入学后的考试成绩与入学考试成绩的相关关系?绩的相关关系?现行教育模式是否合理?现行教育模式是否合理?v经济学:经济学:如:衡量一个地区的经济发展情况,需观测如:衡量一个地区的经济发展情况,需观测的指标有:人均收入、就业率、物价、信贷、的指标有:人均收入、就业率、物价、信贷、税收、年财政收入、基础设施建设等等税收、年财政收入、基础设施建设等等。zf28cxtv医学:医学:通过检测:血压、心脏脉搏跳动的次数、通过检测:血压、心脏脉搏跳动的次数、白血
20、球等等,判定一个人是有病还是没病?白血球等等,判定一个人是有病还是没病?根据某病人的体温、白血球、恶心、呕根据某病人的体温、白血球、恶心、呕吐、腹部压疼感等判别此人是患何种类型阑吐、腹部压疼感等判别此人是患何种类型阑尾炎?急性、慢性、有无穿孔?尾炎?急性、慢性、有无穿孔?zf29cxtv气象学:气象学:根据目前空气湿度、风向、风力等指标判断根据目前空气湿度、风向、风力等指标判断未来未来2424小时内天气情况小时内天气情况v社会学:社会学:随着经济的发展,居民的幸福感是增强呢还随着经济的发展,居民的幸福感是增强呢还是减弱呢?是减弱呢?农民工的工资支付情况是否明显好转?农民工的工资支付情况是否明显
21、好转?zf30cxtv文学:文学:红楼梦前红楼梦前80回和后回和后40回是否出自同一回是否出自同一作者?作者?zf31cxt多元统计无处不在多元统计无处不在zf32cxt多元分析的基本步骤多元分析的基本步骤v1、研究什么问题?明确分析的问题v2、如何获取数据?v3、如何分析数据?v4、如何解释分析结果?zf33cxtv在前期的准备过程中要注意两点:1、样本量要足够的大!一般认为,样本数是研究变量个数的一般认为,样本数是研究变量个数的1010倍左右。倍左右。2、变量类型及其数量化zf34cxt1、为什么需要足够多的观测样本呢?、为什么需要足够多的观测样本呢?v如:抛掷硬币的试验结果如:抛掷硬币的
22、试验结果 试验者 抛掷次数(n)正面次数(k)频率(k/n)TONG 3 3 1.00 5 4 0.80 10 3 0.30 20 7 0.35 50 27 0.54 100 52 0.52 500 246 0.492zf35cxtv历史上许多著名科学家做过抛掷硬币的试验历史上许多著名科学家做过抛掷硬币的试验,抛掷抛掷硬币试验结果如表硬币试验结果如表 试验者 抛掷次数(n)正面次数(k)频率(k/n)De Morgan 2048 1061 0.518 Buffon 4,040 2,048 0.5069 Pearson 12,000 6,019 0.5016 Pearson 24,000 12,
23、012 0.5005 zf36cxtv观测样本(次数)越少,抽样误差越大,样观测样本(次数)越少,抽样误差越大,样本的对研究总体的代表性就小。本的对研究总体的代表性就小。zf37cxtv2 2、变量类型:、变量类型:定量变量定量变量定量变量定量变量 是是是是对对对对研研研研究究究究单单单单位位位位的的的的定定定定量量量量特特特特征征征征的的的的描描描描述述述述。诸诸诸诸如如如如个个个个体体体体年年年年龄龄龄龄、身身身身高高高高、体体体体重重重重等等等等变变变变量量量量均均均均可可可可经经经经测测测测量量量量取取取取得得得得数数数数值值值值。将将将将这这这这类类类类变变变变量视为连续型变量量视为
24、连续型变量量视为连续型变量量视为连续型变量,或定量变量或定量变量或定量变量或定量变量。定性变量定性变量 是是对对研研究究单单位位的的定定性性特特征征的的描描述述,有有类类别别。亦亦称称分分类类变变量量.如如性性别别分分男男、女女为为二二分分类类变变量量。血血型型可分为可分为A A、B B、AB AB、O O四类型四类型,为四分类变量。为四分类变量。zf38cxtv 对定性变量数量化对定性变量数量化 如:性别,男如:性别,男0 0,女,女1 1 病情,轻病情,轻0 0,中,中1 1,重,重2 2zf39cxtv数据的整理:设设研研究究问问题题中中含含有有p p个个指指标标变变量量x1,x1,x2,x2,xpxp.及及n n个个观观察察对对象象.其数据结构为其数据结构为:编号 X1 X2 X3 .XP 1 x11 x21 x31 x1p 2 x12 x22 x32 x2p 3 x13 x23 x33 x3p n x1n x2n x3n xnpzf40cxt