4教育统计学第四章.ppt

上传人:本田雅阁 文档编号:3467887 上传时间:2019-08-30 格式:PPT 页数:41 大小:1.82MB
返回 下载 相关 举报
4教育统计学第四章.ppt_第1页
第1页 / 共41页
4教育统计学第四章.ppt_第2页
第2页 / 共41页
4教育统计学第四章.ppt_第3页
第3页 / 共41页
4教育统计学第四章.ppt_第4页
第4页 / 共41页
4教育统计学第四章.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《4教育统计学第四章.ppt》由会员分享,可在线阅读,更多相关《4教育统计学第四章.ppt(41页珍藏版)》请在三一文库上搜索。

1、,第四章 差异量 第一节 全距、四分位距、百分位距 第二节 平均差 第三节 方差和标准差 第四节 相对差异量 第五节 偏态量及峰态量,引 言 两组学生某科测验成绩: 甲组:54、63、72、74、82、88、99 乙组:67、71、73、76、79、82、84,表示一组数据变异程度或离散程度的量称为差异量。差异量越大,表示数据分布的范围越广,越不整齐;差异量越小,表示数据分布的越集中,变动范围越小。常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差、差异系数等。,差异量数就是对一组数据的变异性(离中趋势)特点进行度量和描述的统计量。它反映了次数分布中数据彼此分散的程度。,第一节

2、全距、四分位距、百分位距,一、全距 全距是一组数据中最大值与最小值之差,又称极差。用R表示。,如上例:两组学生某科测验成绩: 甲组:54、63、72、74、82、88、99 乙组:67、71、73、76、79、82、84 甲组的全距为R=99-54=45 乙组的全距为R=84-67=17 说明甲组比乙组的离散程度大。,频数分布表求全距的方法是:最大一组与最小一组组中值之差。,全距的应用及优缺点 概念清楚、意义明确,计算简单,但易受两极端数据的影响。不考虑中间值的差异,反应不灵敏。 只能作为差异量的粗略指标,在编制频数分布表时常用到。,二、四分位距,1.四分位距的概念 四分位距是指在一个频数分布

3、中,中间50%的频数的全距之半,也就是第3四分位数Q3(第75百分位数)与第1四分位数Q1(第25百分位数)之差的一半。所谓第3四分位数是指在这一点的下端有占总频数75%的数据,在其上端有占总频数25%的数据;所谓第1四分位数中指在这一点的下端有占总频数25%的数据,在其上端有占总频数75%的数据。如图4-1。,图4-1 四分差与四分位数Q1、Q2、Q3之间的关系,用公式可表示为,2.四分位距的计算方法 (1)原始数据计算法 首先将一组数据按大小顺序排列,然后用数据个数n除以4,则第(n/4+1/2)位置对应的数据为第1四分位数Q1,第(3n/4+1/2)位置对应的数据为第3四分位数Q3。,例

4、6 求下列18个数据的四分差:51,60,58,63,74,88,66,70,71,75,81,86,52,57,61,65,90,77。,解:按从小到大排序: 51,52,57,58,60,61,63,65,66,70,71, 74,75,77,81,86,88,90。 由于n=18,所以Q1=18/4+1/2=5,即第5个位置所对应的数据为60;Q3=18*3/4+1/2=14,即第14个位置所对应的数据为77。 将Q1与Q3代入公式,得 QD=(77-60)/2=8.5,(2)频数分布表计算法,(第三个四分位数),(第一个四分位数),例如下表为师大附小二年级80个学生身高的频数分布,求四

5、分位距。,表2.10 师大附小二年级80个学生身高的频数分布,3.四分位距的应用及优缺点 优点:简明易懂,计算简便,不易受两极端数据的影响 缺点:忽略了左右50%数据的差异,不适合代数运算 当一组数据用中位数表示集中量时,就要用四分位数表示差异量,因为它们同属于百分体系。 应用条件:有特大或特小两极端数值; 有个别数值不确切、不清楚; 用等级表示的数据,三、百分位距 百分位距是指两个百分位数之差。常用的百分位距有两种: 第90与第10百分位数之差 第93与第7百分位数之差,例如,求下表中 与 。,表2.10 师大附小二年级80个学生身高的频数分布,回忆百分位数计算方法,第二节 平均差,一、平均

6、差的概念 每一个数据与该组数据中位数离差的绝对值的算术平均数即为该组数据的平均差,用MD表示。,二、平均差的计算方法 1.原始数据计算法,原始数据 中位数 总频数,例如,求原始数据78、83、69、75、97、88、86的平均差。,2.频数分布表计算法,各组频数 各组组中值 总频数,表3-2 48个学生数学成绩频数分布表,三、平均差的优缺点 优点:意义明确,计算简单,每个数据都参加了运算,考虑到了全部的离差,反应灵敏 缺点:计算用到绝对值,不适合代数运算,因此在统计分析中应用较少。,第三节 方差和标准差,一、方差和标准差的概念 方差是指离差平方的算术平均数,用 表示,公式为:,标准差是指方差的

7、平方根,用 表示,即:,例如:6名女童的跳远成绩(cm)148.2、123.8、123.8、142.7、130.4、133.3,求方差和标准差。,标准差的值越大,表明这组数据的离散程度越大,即数据越参差不齐,分布范围越广;标准差的值越小,表明这组数据的离散程度越小,即数据越集中、整齐,分布范围越小。在教育科研中,究竟是标准差大好还是小好,这要看所分析的问题而异。,二、方差和标准差的计算方法 1.原始数据法 为了减少计算量,可将公式4.1进行转换,使公式中参与运算的变量皆为原始数据。公式为,原始数据 总频数,2.频数分布表计算法,各组组中值 各组频数,例如:,表3-2 48个学生数学成绩频数分布

8、表,三、方差和标准差的应用及优缺点 优点:反应灵敏;严密确定;计算简单;适合代数运算; 用样本数据推断总体差异量时,是最好的估计量; 在避免两极端数值影响方面大大超过全距; 在考虑到全部离差方面,优于四分位距; 在避免绝对值方面,优于平均差。 缺点:不易理解; 易受极端数值影响; 有个别数据模糊不清时,无法计算。,适用条件 1、一组数据的一般水平适合用算术平均数描述时,其离散程度宜用方差和标准差描述。 2、计算其它统计量时,如相关系数等,要用到标准差。 3、在推断统计中,尤其是进行方差分析时,常用方差表示数据的离散程度。,四、各种差异量的数值关系 当总频数相当大,且频数分布呈正态时,全距、四分

9、位距、平均差、标准差的数值存在如下关系:,中位数上下各一个四分位距之间包括50%的总频数; 算数平均数上下各一个平均差之间包括57.51%的总频数; 算数平均数上下各一个标准差之间包括68.26%的总频数;,第四节 差异系数,一、差异系数的概念 差异系数是一组数据的标准差与算数平均数的比率,又称相对差异量,它是没有单位的相对数。用符号CV表示。公式为,由上式可见,差异系数就是以平均数为单位,视标准差占平均数百分比的大小来衡量差异的程度。差异系数越大,表明离散程度越大;差异系数越小,表明离散程度越小。,二、差异系数的用途 1.比较不同单位资料的差异程度 例如:1975年上海市区6岁男童体重与身高

10、为:,其差异系数为:,可见,体重的差异大于身高的差异。,2.比较单位相同而平均数相差较大的两组资料的差异程度 例如:1975年上海市区两组女童的体重为:,可见,两组女童体重的离散程度大体相同。,3.可判断特殊差异情况 根据经验,一般CV值常在5%35%之间。 如果CV35%时,可怀疑所求得的平均数是否失去了意义; 如果CV5%时,可怀疑平均数与标准差是否计算有误;,三、差异系数的应用条件 由公式可看出,当平均数为零时,此时无意义。从测量的理论来说,只有等比量表的测量结果才使平均数等于零不可能。也就是说,用来测量的量尺,即具有等距单位,又具有绝对零点,这时所测量出的数据其平均数才不可能等于零,才

11、可以计算差异系数。,补充:优良差异量数具备的标准,鉴定一个差异量数,是不是一个良好的统计指标,主要看是否具备以下标准: (1)应该是根据客观数据资料获得的,而不是人为的主观估计决定的; (2)应该是根据全部观测值计算得出来的,而不是个别数据计算的结果,否则就不能代表全部数据的分布特征; (3)应当简明,容易理解,不应过于带有数学抽象性质; (4)计算应该方便、容易、迅速; (5)应该最少受到抽样变动的影响(样本的稳定性),在反复取样的过程中具有相对恒常性; (6)应该能够采用代数方法计算。,各种差异量数优缺点比较,标准差计算最严密,它根据全部数据求得,考虑到每一个样本数据,测量具有代表性,适合

12、代数法处理,受抽样变动的影响较小,反应灵敏。缺点是较难理解,运算较繁琐,易受极端值的影响。 方差的描述作用不大,但由于它具有可加性,是对一组数据中造成各种变异的总和的测量,通常采用方差的可加性分解并确定属于不同来源的变异性,并进一步说明各种变异对总结果的影响。因此,方差是推论统计中最常用的统计量数。 全距计算简便,容易理解,适合所有类型的数据,概念清楚,意义明确,但它易受极值影响,测量也太粗造,只能反映分布两极端值的差值。不能显示全部数据的差异情况,仅作为辅助量数使用。,平均差容易理解,容易计算,能说明分布中全部数值的差异情况,缺点是会受两极数值的影响,但当数据较多时,这种影响较小,因有绝对值

13、也不适合代数方法处理。 百分位距意义明确,易计算,不易受两极值影响,但不能反映出分布的中间数值的差异情况,也仅用作补助量数。 四分位距意义明确,计算方便容易,对极端值不敏感,较不受极端值影响。当组距不确定,其他差异量都无法计算时,可以计算四分位距。但四分位距无法反映分布中所有数据的离散程度,不适合使用代数方法处理,受抽样变动影响较标准差大。 通过比较,可以发现标准差、方差价值较大,它们的应用也比较广泛,因此,一般称标准差、方差为高效差异量。相比较,其它差异量缺点比较明显,应用也受到限制,故它们为低效差异量。,第五节 偏态量及峰态量,偏态量和峰态量是用以描述数据分布特征的统计量。 一、偏态量 1

14、.利用算术平均数与众数或中位数的距离来计算,当次数分布呈正态时: 当次数分布呈正偏态时: 当次数分布呈负偏态时:,偏态量计算公式为:,偏态量计算公式为:,SK=0,分布呈对称形; SK0,分布为正偏态; SK0,分布为负偏态;,由于众数 具有不稳定性、不确定性,常用算术平均数和中位数表示众数。于是偏态量又可表示为:,2.根据动差来计算 动差表示频数分布的离散程度,二级动差就是方差。,偏态系数为:,当 时,表明频数分布呈对称形; 当 时,表明频数分布呈正偏态; 当 时,表明频数分布呈负偏态;,当总频数n200时,所计算出的偏态系数才比较可靠。,例如课本表4.4,4.5,二、峰态量 1.用两个百分位距来计算 一个频数分布,若平均数周围频数比例越大,分布形态越高狭;若平均数周围频数比例越小,分布形态越低阔;,常用的峰态量为:,当 时,表明频数分布呈正态峰; 当 时,表明频数分布呈高狭峰; 当 时,表明频数分布呈低阔峰;,例如课本表4.1,2.根据动差来计算,峰态系数为:,当 时,表明频数分布呈正态峰; 当 时,表明频数分布呈高狭峰; 当 时,表明频数分布呈低阔峰;,n1000时,计算的峰态系数才比较可靠。,例子:课本表4.4,4.5,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1