统计学基础知识培训课件.ppt

资源描述

《统计学基础知识培训课件.ppt》由会员分享，可在线阅读，更多相关《统计学基础知识培训课件.ppt（44页珍藏版）》请在三一文库上搜索。

1、统计学基础知识培训,统计学基础知识培训,2007年5月,统计学基础知识培训,根据测量尺度数据的分类,1999年某公司员工情况明细表,统计学基础知识培训,数据的分类,根据数据测量的尺度：分为定类数据、定序数据、定距数据、定比数据根据描述对象与时间的关系：分为截面数据和时间序列数据根据统计数据的收集方法：分为观测数据和实验数据,统计学基础知识培训,4,你想要干什么？,一.归纳、描述或者显示数据二.观察变量和数据的分布三.比较组间数据的不同四.变量之间显著性关系的测度五.相似数据分组的测度六.相似变量的压缩测度,结束,统计学基础知识培训,你要归纳整理的是什么类型的数据？,1.已分类数据

2、（定类、定序） 2.连续、数值型数据（定距、定比）,返回,统计学基础知识培训,你想如何归纳整理数据？,1.分类计算频数和百分比 2.计算两分类变量下的频数和百分比 3.计算比率值：比率是各不同类别数值之间的比值,返回,统计学基础知识培训,分类变量的图形及图表显示,AnalyzeDescriptive StatisticsFrequencies,返回,统计学基础知识培训,两分类变量数据的图表及图形显示,AnalyzeDescriptive StatisticsCrosstabs,返回,统计学基础知识培训,比率值的计算及显示,AnalyzeReportsCase summaries,返回,统计学基

3、础知识培训,如何整理连续数值型数据？,1.描述连续数值型数据的统计量及数据分组法 2.图表显示,返回,统计学基础知识培训,连续数值型数据统计量及数据分组法,1.统计量：度量集中趋势的统计量包括平均数、几何平均；度量离散趋势的统计量包括极差、方差和标准差等。 3.数据分组：分组是根据统计分析的需要，将原始数据按照某种标准划分成不同的组别，形成分组数据，分组后计算数据出现的频数，形成频数分布表。,统计学基础知识培训,各常用统计量的计算方法,平均值(mean)：一组数据之和除以数据个数；几何平均值：用于计算比率的平均，实际应用中，主要用于社会经济现象的年平均增长率；极差(Range)：也称全距，

4、是一组数据的最大值和最小值之差；方差：各变量与其均值离差平方的平均数；标准差(std.Deviation)：即是方差的平方根；与方差不同的是，标准差具有与变量值一样的量纲，实际的意义要比方差清楚。 SPSS实现：AnalyzeDescriptive StatisticsDescriptives,统计学基础知识培训,数据分组法,数据分组包括单变量分组和组距分组两种，单变量适合离散变量分组，一般数据都使用组距分组。数据分组的步骤： 1.确定组数，可以按斯特奇斯（Sturges）提出的经验公式来确定组数K；K=1+lgn/lg2。n为数据的个数,对结果四舍五入即为组数； 2.确定各组的组距。组

5、距是上限与下限的差，组距=（最大值-最小值）/组数； 3.根据分组整理成频数分布表。分组需要“不重不漏”，因此习惯上规定“上组限不在内”。若有的值过大，可以设置开口组。等距分组由于各组的组距相等，各组频数分布不受组距大小的影响，可以从频数分布中直接观察频数分布的特征和规律，而不等距分组就必须计算频数密度,频数密度=频数/组距，频数密度才能准确反映频数分布的实际情况。,返回,统计学基础知识培训,连续数值型数据的显示方法,分组数据的图形显示直方图这是406例汽车的马力的直方图,50,100,150,200,汽车马力,0,20,40,60,频数,统计学基础知识培训,未分组数据的显示方法箱线图箱

6、线图是由一组数据的5个特征值绘制而成的，它由一个箱子和两条线段组成，5个特征值为：最大值、最小值、中位数和两个四分位，下面是406例产地为美国、欧洲和日本三个地区的汽车马力值的箱线图。欧洲箱线图有两个离群点。,连续数值型数据的显示方法,返回,统计学基础知识培训,你有何种数据？,1.分类数据（定类、定序） 2.连续数值型数据（定距、定比）,返回,统计学基础知识培训,分类数据分布的统计量指标,1.集中趋势：计算众数、中位数众数是一组数据中出现次数最多的变量值；中位数是一组数据排序后，处于中间位置的变量值； 2.离散趋势：异众比率、四分位差异众比率是指非众数组的频数占总频数的比率，用Vr表示

7、，Vr=（fi-fm）/fi。四分位差也称内距或者四分间距，计算方法：Qd= QU - Ql。四分位差反映的是50%数据的离散程度，其数值越小，说明中间数据越集中，反之，越分散。 3.频数分布和百分比,返回,统计学基础知识培训,连续数值型数据分布的统计量指标,1.集中趋势：平均值、加权平均值、算术平均值简单均值就是一组数据值之和除以其数据个数；加权平均的均值与其各个数值的个数有关；几何平均是适用于特殊数据的一种平均数，只要用于比率的平均。 2.离散趋势：极差（全距）、方差、标准差极差也称全距，为一组数最大值减去最小值得到。方差是各变量值与其均值离差平方的平均数，它是测度数值型数据离

8、散程度的最主要的方法。计算方法：s2=(xi-x平均)/（n-1）。实际分析问题时，我们常用标准差，标准差为方差开根号。 3.数据偏态与峰态的测度偏态及其测度：计算公式SK=n(xi-x平均值)3/（n-1）(n-2)s3;如果数据分布是对称的，则偏态系数为0，如果偏态系数明显不等于0，表明分布是非对称的；当SK为正值时，可以判断为右偏；当SK为负值时，为左偏。SK越大，说明偏斜的程度就越大。峰态及其测度：计算方法：K=n(n+1) (xi-x平均值)4-3(xi-x平均值)22(n-1)/(n-1)（n-2）(n-3)s4。标准正态分布的峰态为0，当K0时为尖峰分布；当K0时为扁平分布,

9、统计学基础知识培训,与数据分布相关的测度量总结,统计学基础知识培训,常见的数据分布正态分布,在社会经济问题中，有许多随机变量的概率分布服从正态分布，如身高、体重等。正态分布记作XN(,)，为随机变量X的均值，为随机变量X的标准差。决定了正态分布图形的中心位置，决定了图形中峰的陡峭程度，当较大，图形较缓，当较小，图形趋于陡峭。所有的正态分布均能通过Z=(X- )/ 化成标准正态分布XN(0,1)(均数为0，方差为1)。随机变量X处在一个正负一个之内的概率为68.26%；2个之内的概率为95.45%； 3个之内的概率为99.73%。,返回,统计学基础知识培训,你要比较什么类型的数

10、据？,1.分类数据（定比、定序） 2.已分组的连续数值型数据（定距、定比）,返回,统计学基础知识培训,应用列联分析解决分类数据的组间比较,频数分布表每次只能描述一个变量的情况，而列联表是由两个以上的变量进行交叉分类的频数分布表，是反映两个或多个变量联合分布的表格。可用于各组比例值是否一在列联表中，可以计算以列合计为基数的列百分比或以行合计为基数的行百分比。卡方统计量提供对列联表中观察到的联系的统计显著性检验（拟合优度和变量联系），通过系数、列联系数、Cramers V和系数测量变量关系强度的指标。,Analyze-Descritives-Crosstabs,统计学基础知识培训,举例说明,某公司

11、为了提高市场占有率，某行业有两个主要的竞争对手，A和B公司同时开展了广告宣传。在广告宣传之前，A公司的市场占有率为45%，B公司市场占有率为40%，其它公司为15%。广告战后，随机抽取了200名消费者，其中102人准备买A公司产品，82人买B公司产品，另外有16人准备买其它公司产品。问以广告战前后各公司市场占有率是否发生了变化。,检验观察值和期望值的拟合优度：计算卡方值为8.18，而显著性0.05、自由度为2时的卡方值5.99，因此说明占有率发生了显著的变化。,统计学基础知识培训,举例说明,列联表格的卡方检验还用于判断两个分类变量之间是否存在联系的问题中。一种原料来自不同的地区，原材料质量被

12、分为三个不同的等级。从这批原料中随机抽取500件进行检验，结果如下表：,计算卡方值为19.82大于显著性为0.05、自由度为4的的卡方值为9.488，所以地区和原材料等级之间存在依赖关系，原材料的质量受地区影响。存在关系的假设成立，可以计算系数、列联系数Cramers V和系数测量变量关系强度的指标。,返回,统计学基础知识培训,你想要比较多少组数据或多少个变量？,1.一组数据或变量与一个已知数值进行比较 2.两组数据或变量 3.三组或者三个以上变量,返回,统计学基础知识培训,应用单样本T检验检验一组数据或变量与一已知数值是否相等,工作中经常碰到根据已有的知识或者给定的标准对单个变量做出结论，比

13、如新产品的份额是否超过了15%等。这样的问题就可以转化为通过单样本T检验进行检验的零假设。单样本T检验检验的是抽样总体均值是否与给定假设一致。根据样本计算得出的T统计量值与给定的0.05显著性水平下的临界值进行比较，从而得出结论。 SPSS实现：Analyze-Compare Means-One Sample T Test,返回,统计学基础知识培训,你的数据是如何组织起来的？,1.分成两不相关组的一个连续数值型变量 2.具有相关关系的两连续数值型变量,返回,统计学基础知识培训,你想要进行何种独立的样本检验？,步骤：1.首先检测变量是否服从正态分布，方法为通过Graphs-Interactive

14、-Histogram(直方图)进行观察 2.如果变量服从正态分布，那么应用独立样本T检验进行两样本均数的比较：Analyze-Compare Means-Independent Samples T Test 3.如果变量不服从正态分布，那么应用非参数双独立样本检验进行两独立样本所在总体分布是否相同的检验：Analyze-Nonparametric Tests-2 Independent Samples,返回,统计学基础知识培训,你想要何种配对样本的检验,步骤：1.同样通过直方图观察变量是否服从正态分布； 2.如果服从正态分布，那么应用配对样本的T检验进行配对设计的差值均数与总体均数0进行比较：

15、Analyze-Compare Means-Paired Samples T Test. 3.如果不服从正态分布，那么应用双相关样本检验：Analyze-Nonparametric Tests-2 Related Samples.,返回,统计学基础知识培训,方差分析（ANOVA）,前面介绍的方法均为一个因素水平下，两组数据的比较方法，当一个因素水平下，有三个或者三个以上的组别时，就需要用到方差分析。方差分析适用于两组或者两组以上均值差异的检验。方差分析必须有一个定量（定距或定比尺度）的因变量，以及一个或者多个自变量（定类），定类自变量称为因子，一个因子成为单因子方差分析，若有n个自变量，成为n

16、因子方差分析。其原理为通过对数据误差来源的分析来判断不同总体的均值是否相同。方差分析的3个基本假定：1.每个总体都应该服从正态分布；2.各个总体的方差2 ；3.观测值是相互独立的。 SPSS实现：AnalyzeCompare MeansOne-Way ANOVA,统计学基础知识培训,举例说明,下表为一年内，四个行业抽取的样本企业投诉次数表，问这几个行业之间的服务质量是否有显著性差异。,下表为方差分析的结果表，从F统计量值为3.4066大于给定0.05水平下的F分布的临界值3.1273，应该拒绝原假设，说明各个行业的投诉之间的差异是显著的。,返回,统计学基础知识培训,你有什么样的数据？,1.分

17、类数据（定类、定序） 2.定序、等级顺序、或者非参数连续性数据 3.连续数值型数据（定距、定比）,返回,统计学基础知识培训,分类数据（定类、定序）,应用前面讲过的列联分析，卡方对独立性进行检验，进而计算通过系数、列联系数、Cramers V和系数测量变量关系强度的指标。,返回,统计学基础知识培训,定序、等级顺序、或者非参数连续性数据,计算Spearman相关系数和Kendalls tau-b相关系数，看两变量的关系的密切程度。计算排序的相关系数又称秩相关或者等级相关，记作r。当|r|0.3,视为不相关；当0.3|r|0.5,视为低度相关；0.5|r|0.8,视为中度相关；|r|0.8,视为高度

18、相关。 SPSS实现：Analyze-Correlate-Bivariate选Spearman相关系数和Kendalls tau-b相关系数,返回,统计学基础知识培训,连续数值型数据（定距、定比）,1.两变量：计算Pearson相关系数来度量两变量关系的密切程度，记作r。当|r|0.3,视为不相关；当0.3|r|0.5,视为低度相关；0.5|r|0.8,视为中度相关；|r|0.8,视为高度相关。 SPSS实现Analyze-Correlate-Bivariate选择Pearson项。 2.控制了一个或者两个的其他其变量的影响之后两变量的相关，为偏相关，也记作r。 Spss实现Analyze-

19、Correlate-Partial选择要分析的两变量进入要分析的变量框；选择要控制的变量进入要控制的变量框,统计学基础知识培训,测度变量的因果关系回归分析,前面介绍的数值型变量的相关系数或者偏相关系数主要了解两变量关系的密切程度，而回归分析主要度量一个因变量，与一个、两个或两个以上的自变量的数量伴随关系，是测度因变量和自变量的因果关系的方法。回归分为线性回归和曲线回归。以一元线性回归为例：其回归方程形式为y=ax+b。回归直线的拟和优度的测度应用的是判定系数，判定系数说明了因变量的数据变动中，有多少是由自变量的的变动所决定的。而估计标准误用于测度各实际观测点在直线周围的分散程度，其越小，说明回

20、归直线对各观测点代表性好，反之则代表性差。另外还用F检验检验线性关系的显著性。应用T检验检验回归系数的显著性检验，检验自变量对因变量的影响是否显著。 SPSS实现：Analyze-Regression-Linear,返回,统计学基础知识培训,你有什么类型的数据？,1.连续数值型数据（定距、定比） 2.分类数据（定类、定序）,返回,统计学基础知识培训,你想要判别分组还是判别已知组的特征？,1.判别分组，应用聚类分析。聚类分析是一组将研究对象分成相对同质的群组的统计分析技术，不区分自变量和因变量。聚类分析的主要目的是根据聚类变量将对象分成相对同质的群组。某一组的内部成员更加相似，与其它组的成员不同

21、。当数据量小于200时，应用系统聚类分析将数据分组，Analyze-Classify-Hierarchical Cluster；当大于200个数据时应用K均数聚类法，又称快速聚类法，Analyze-Classify-K-means Cluster。,统计学基础知识培训,已知分组的判别,2.判别已知组的特征应用判别分析。判别分析是一种数据分析技术，适用于标准变量或因变量为定类数据，预测变量或者自变量为定距（或者定比数据）的情况。就像医生看病的判断过程一样，有各种各样的病症的症状、检测结果值分类储存在脑子里，医生根据现在来的病人的症状、检测结果等判断病人得的是什么病。判别分析就是构造判别函数

22、，然后判别新调查对象的组别。 SPSS实现：Analyzeclassify-Discriminant,返回,统计学基础知识培训,分类数据的数据分组,分类数据不可进行数据聚类分析！SPSS也未提供此项功能。,返回,统计学基础知识培训,你有什么类型的数据？,1.连续数值型数据（定距、定比） 2.分类数据（定类、定序）,返回,统计学基础知识培训,应用因子分析对变量进行压缩,因子分析是一组主要用于数据提炼与概括地分析方法的总称。在各种数据分析中，可能涉及大量的变量，其中大部分变量是相关的，需要将变量的数目缩减到合适的水平，以便进一步分析。大量相互关联的变量之间的关系可以用几个潜在的因子表示。比如，在测

23、量店面形象时，可以让调查对象对商店的一系列指标打分，然后用因子分析确定构成商店形象的主要因子。方差分析、回归分析和判别分析中需要确定一个因变量或者标准变量，而将其它的变量作为自变量或者预测变量，因子分析并不进行这样的区别，它是全面考察全体变量之间的相互依赖关系的方法，这与聚类分析相似。常用于：1.识别解释一组变量之间相关关系的潜在维度或因子；2.用一组较少的、相互独立的因子代替原始变量，用于进一步的多元分析（回归分析或者判别分析等）；3.从一大组变量中找出数量较少的一组主要变量用于进一步的多元分析。 AnalyzeData ReductionFactor,返回,统计学基础知识培训,对于分类数据变量的压缩？,因子分析需要连续数值型变量，分类变量不能进行因子分析！,返回,统计学基础知识培训,谢谢！,

展开阅读全文