课题研究数据整理与分析统计理论部分.ppt

上传人:本田雅阁 文档编号:2613154 上传时间:2019-04-19 格式:PPT 页数:85 大小:1.45MB
返回 下载 相关 举报
课题研究数据整理与分析统计理论部分.ppt_第1页
第1页 / 共85页
课题研究数据整理与分析统计理论部分.ppt_第2页
第2页 / 共85页
课题研究数据整理与分析统计理论部分.ppt_第3页
第3页 / 共85页
亲,该文档总共85页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《课题研究数据整理与分析统计理论部分.ppt》由会员分享,可在线阅读,更多相关《课题研究数据整理与分析统计理论部分.ppt(85页珍藏版)》请在三一文库上搜索。

1、课题研究数据整理与分析 -统计理论部分 周海波 湖南师范大学心理系 课程目标、内容 v目标:掌握课题研究的一些基本思路、选取 方法、统计分析方法 v内容 统计概论 Excel与课题研究 SPSS与课题研究 引言课题研究 v案例 双手交叉 与性别的关系 与文理科的关系 与性格气质类型的关系 如果描述上述结果? v课题研究一般过程 选择课题 实施方案 实验研究 整理结果 一 统计概论 v统计学:是一门关于用科学方法收集、整理 、汇总、描述和分析数据咨询,并在此基础上 进行推断和决策的科学。 v统计 统计资料 统计工作 统计学 v教育统计学 心理与教育统计学的研究内容 描述统计 推论统计 实验设计

2、心理与教育统计学 1.1 描述统计 v定义: 主要研究如何整理心理与教育科学实验或调查 得来的大量数据,描述一组数据的全貌,表达一件事物 的性质. v内容: 数据如何分组:使用统计图表描述 怎样计算一组数据的特征值,从而描述数据全 貌 表示一一事物两种或两种以上属性间相互关系 的描述及各种相关系数的计算及应用条件,描述数据 分布特征的峰度偏度系数的计算方法 推论统计 v定义: 研究如何通过局部数据所提供的信息,推论总 体的情形,目的在于根据已知已知的情况,在一定概率的 意义上估计、推测未知未知的情况。 v内容 假设检验,大样本(Z检验);小样本(t检验);计算 资料(百分数检验,X2 检验),

3、变异数分析(F检验),回归分 析方法 总体参数特征值估计方法 非参数的统计方法 实验设计 v目的: 研究如何更加合理、有效地获得观察资料,如 何更正确、更经济、更有效的达到目的实验目的,以 提示实验中各种变量关系的实验计划。 v内容: 选择怎样的抽样方式; 如何计算样本容量; 确定怎样的实验对照形式; 如何实现实验组和对照组的等组化; 如何安排实验因素和如何控制无关因素; 用什么统计方法处理及分析实验结果, 心理与教育统计学基础知识 1、数据类型 分类数据 等级数据 等距数据 比率数据 计数数据 离散型数 据 测量数据 连续型数据 变量、随机变量、观测值 v变量是可以取不同值的量。统计观察的指

4、标都 是具有变异的指标指标。当我们用一个量表示这个指 标的观察结果时,这个指标是一个变量。 v用来表示随机现象的变量,称为随机变量随机变量。一 般用大写的或表示随机变量。 v随机变量所取得的值,称为观测值观测值。一个随机 变量可以有许多个观测值。 总体、个体和样本 v需要研究的同质同质对象的全体,称为总体总体。 vv每一个每一个具体研究对象,称为一个个体个体。 v从总体中抽出的用以推测总体的部分部分对象 的集合称为样本样本。 v样本中包含的个体数个体数,称为样本的容量容量n 。 一般把容量n 30的样本称为大样本; 而n 30的样本称为小样本。 统计量和参数 统计统计 指 标标 统计统计 量

5、参数 平均数 标标准差S 相关系 数 r 回归归系 数 b 次数、比率、频率与概率 v次数/频数:某一事件在某一类别中出现的数 目 v比率:两个数的比 v频率:某一事件发生的次数被总的事件数目除 v概率:某一事件在无限的观测中所能预料的相 对出现的次数,即某一事物或某种情况在某一总 体中出现的比率。 统计误差 v误差是测得值与真值之间的差值。 v测得值真值误差 v统计误差归纳起来可分为两类:测量误差与 抽样误差。 v由于使用的仪器、测量方法、读数方法等问 题造成的测得值与真值之间的误差,称为测量误差 。 v由于随机抽样造成的样本统计量与总体参数 间的差别,称为抽样误差。 抽样原理及其方法 v原

6、则: 随机化,在进行抽样中,总体中每一个 体是否被抽取,并不由研究者主观决定,而 是每一个体按照概率原理被抽取的可能性是 相等 v抽样方法 简单随机抽样:抽签法,随机数字法 等距抽样:排序,隔若干个抽取一个 分层随机抽样:将总体分层,每层中随 机抽样 两阶段随机抽样:分为两阶段 vv缺失缺失:指数据不全或缺项未填;例如一份资料中 未回答的问题占10以上,或者缺少关键性资料。 vv可疑可疑:指难以辨认或怀疑其真实性的数据;例如 ,有的被试填答的问卷全部选同一个选项(如全选A 或全选B);有的被试填答的结果可以看到是一种规 则的排列方式(如A B C D E D B C A B C D E )。

7、vv失误失误:指存在明确差错的数据或答案。 v对于个别极端数据是否该剔除,应遵循三个标准三个标准 差差法则。 1.2 统计表 v统计表是用来表达研究变 量与被说明的事物之间数量 关系的表格。它可以将大量 数据的分类结果清晰、概括 、一目了然地表达出来,便 于分析、比较和计算。 统计表的构成 横标目的总标目 纵标目 横标目 数字 表21 统计表的格式 顶线 底线 表线 表号标题 标目标目 表注 注: 例: 表2-2 北京市四街道智力落后患者分布 街道检查检查 人数病人数 患病率( ) 甲518411593.1 乙760302633.5 丙495081903.8 丁517881703.3 总计总计

8、2291687823.4 资料来源:见心理学报1979年第1期103页,选部分引用 统计表的种类 vv简单表简单表:只按研究现象(或变量) 的名称、地点、时序等列出数据的统 计表。 vv分组表分组表:只按一个标志分组的统计 表称为分组表。 vv复合表复合表:按两个或两个以上标志分 组的统计表称为复合表。 简单表 表2-3 各校学生数一览表 学校校校校校 人数9857628931051 分组表 v表2-4 上海市区男幼儿20米跑步用时 年龄组龄组 3岁岁4岁岁5岁岁6岁岁 平均用时时 (秒) 7.717.166.045.53 资料来源:引自华东师范大学学报,1985年第2期第30页 复合表 v表

9、2-5 某年级操行评定结果 班别别 甲乙丙丁 合计计 男女男女男女男女 一班6588642140 二班55910331137 三班7698430138 合计计18162626131033115 例: 表26 中学生心理烦恼调查被试分布 1.3、统计图 v统计图是整理和呈现数据的另一种 方法,它把研究变量与被说明事物之 间的数量关系用图形表现,直观直观、形形 象象地表达出事物的全貌及其数据的分 布特征,使人一目了然,便于理解和 记忆,印象深刻。 统计图的构成 v统计图一般由图号图号、标题标题、标目标目、图形图形、图图 注注等几部分构成。 v统计图中的标目由基线基线和尺度线尺度线构成。对于 有纵、

10、横轴的统计图,一般以基线表示被观察 的现象,而尺度线则表示其数量。 统计图的分类 vv条形图条形图:用直条的长短来表示统计项目 数值大小的图形,主要是用来比较性质相似 的间断型资料。 vv圆形图圆形图:是用于表示间断型资料比例的 图形。圆形的面积表示一组数据的整体,圆 中扇形的面积表示各组成部分所占的比例。 各部分的比例一般用百分比表示。 单式条形图 图21 某年级操行评定结果条形图 基线 尺度线 图形 复式条形图 图22 某年级操行评定结果条形图 例: 图2-3 三项影响较大的SARS信息对不同文化程 度民众的影响 圆形图 图24 某年级操行评定结果圆形图 基线 尺度线 绘制圆形图的步骤 v

11、求出各组成部分所占的百分 比 v求出各部分的中心角度 v以顺时针方向画出扇形 v标出不同颜色及百分比 线形图 v线形图用来表示连续型资料。它能 表示两个变量之间的函数关系函数关系;一种 事物随另一种事物变化的情况;某种 事物随时间推移的发展趋势发展趋势等。 v基于线形图,既可对有关统计变量 进行数量比较,又可分析发展的趋势 。 例如:对有意义的词汇,小学一年级至初中三年级学 生视觉、听觉记忆再现率的情况。 图25 有意义的材料再现率比较线形图 1.4 集中量数 v集中趋势:数据分布中大量数据向某方向集 中的程度 v算数平均数 v中数 v众数 v加权平均数 v几何平均数 v调和平均数 差异量数

12、v离中趋势:数据分布中彼此分散的程度,差异量越大 ,表明数据越分散、不集中;差异量越小,表明数据越集 中,变动范围越小。 v全距 v百分位数 v四分位数 v平均差 v方差 v标准差 二、平均差 平均差(average deviation 或者 mean deviation)是指一组数据中, 每一个数据与该组数据的平均数离差 的绝对值的算术平均数,通常用AD或 MD表示。 本书中均以AD表示。 三、方差和标准差 方差(又称为变异数、均方)。是表示一 组数据离散程度的统计指标。一般样本的方差 用 表示,总体的方差用 表示。 标准差(standard deviation)是方差 的算术平方根。一般样

13、本的标准差用 S 表示, 总体的标准差用 表示。 标准差和方差是描述数据离散程度的最常 用的差异量。 表5-1 52名学生数学成绩方差和标准差计算表 成 绩绩 组组中值值 Xc 频频数fF*XcF*XC2计计 算 95 97.5219519012.5 90 92.5218517112.5 85 87.53262.522968.75 80 82.55412.534031.25 75 77.5862048050 70 72.511797.557818.75 65 67.59607.541006.25 60 62.55312.519531.25 55 57.5423013225 50 52.5210

14、55512.5 45 47.5147.52256.25 合计计523775280525 5方差和标准差的意义 v方差与标准差是表示一组数据离散程度的最好 指标,是统计分析中最常用的差异量。 v标准差具备一个良好的差异量应具备的条件, 如:反应灵敏,有公式严密确定,简明易懂,适 合代数运算等等。 v应用方差和标准差表示一组数据的离散程度, 须注意必须是同一类数据(即同一种测量工具的 测量结果),而且被比较样本的水平比较接近。 1.4 标准分数 v标准分数(standard score),又称 为基分数或分数(Zscore),是 以标准差为单位表示一个原始分数在团 体中所处位置的相对位置量数。 v

15、标准分数从分数对平均数的相对地位相对地位 、该组分数的离中趋势离中趋势两个方面来表示 原始分数的地位。 v分数可以表明原始分数在团体中的 相对位置,因此称为相对位置量数。 v把原始分数转换成分数,就把单位 不等距的和缺乏明确参照点的分数转换 成以标准差为单位、以平均数为参照点 的分数。 2.标准分数的性质 v分数无实际单位,是以平均数为参照点 、以标准差为单位的相对量。 v一组原始分数得到的分数既有正值,也 有负值,所有原始分数的分数之和为零。 v一组原始数据中,各个分数的标准差为 。 v标准正态分布的平均值为,标准差为 。 3.标准分数的优点 vv可比性可比性:标准分数以团体的平均数为基准,

16、 以标准差为单位,因而具有可比性。 vv可加性可加性:标准分数使不同的原始分数具有相 同的参照点,因而具有可加性。 vv明确性明确性:标准分数较原始分数的意义更为明 确。 vv合理性合理性:标准分数保证了不同性质的分数在 总分数中的权重相同,使分数更合理地反映事 实。 4、标准分数的应用 v用于比较几个分属性质不同的观测值 在各自数据分布中相对位置的高低。 v计算不同质的观测值的总和或平均值 ,以表示在团体中的相对位置。 当研究需要合成不同质的数据时,如果已 知这些不同质的观测值的次数分布为正态, 这时可采用分数来计算不同质的观测值的 总和或平均值。 v可以看到,在平均数上 下各三个标准差三个

17、标准差的范围内 ,分布着全部数据的 99.73%,反言之,在三 个标准差之外的数据不足 0.27%,因此常把“三个 标准差”做为判断可疑值 取舍的依据。 2.区间估计 v以样本统计量的抽样分布(概率分布 )为理论依据,按一定概率的要求,由 样本统计量的值估计总体参数值的所在 范围,称为总体参数的区间估计区间估计。 v对总体参数值进行区间估计,就是要 在一定可靠度上求出总体参数的置信区置信区 间间的上下限。 v要知道与所要估计的参数相对应的样 本统计量统计量的值,以及样本统计量的理论分 布; v要求出该种统计量的标准误标准误; v要确定在多大的可靠度可靠度上对总体参数 作估计,再通过某种理论概率

18、分布表,找 出与某种可靠度相对应的该分布横轴上记 分的临界值临界值,才能计算出总体参数的置信 置信 区间区间的上下限。 置信区间 v置信度,即置信概率置信概率,是作出某种推 断时正确的可能性(概率)。 vv置信区间置信区间,也称置信间距( confidence interval,CI)是指在某一 置信度时,总体参数所在的区域距离或 区域长度。 置信区间是带有置信概率的取值区间 。 显著性水平 v对总体平均数进行区间估计时,置信概 率表示做出正确推断的可能性,但这种估 计还是会有犯错误的可能。显著性水平 (significance level)就是指估计总体参数 落在某一区间时,可能犯错误的概率

19、,用 符号表示。 P- v例题1:某小学10岁全体女 童身高历年来标准差为6.25 厘米,现从该校随机抽27名 10岁女童,测得平均身高为 134.2厘米,试估计该校10岁 全体女童平均身高的95和 99置信区间。 v解:10岁女童的身高假定是从正态 总体中抽出的随机样本,并已知总体 标准差为=6.25。无论样本容量大小 ,一切样本平均数的标准分数呈正态 分布。于是可用正态分布来估计该校 10岁女童身高总体平均数95和99 的置信区间。 其标准误为 当0.95时,1.96 因此,该校10岁女童平均身高95的置信区 间为: 当0.99时,2.58 因此,该校10岁女童平均身高99的置信区 间为:

20、 v例题2:从某小学三年级随 机抽取12名学生,其阅读能力 得分为28,32,36,22,34 ,30,33,25,31,33,29 ,26。试估计该校三年级学生 阅读能力总体平均数95和99 的置信区间。 v解:12名学生阅读能力的得分假定是 从正态总体中抽出的随机样本,而总体 标准差未知,样本的容量较小( =1230),在此条件下,样本平均数与 总体平均数离差统计量服从呈t分布。 v于是需用t分布来估计该校三年级学生 阅读能力总体平均数95和99的置信 区间。 由原始数据计算出样本统计量为 当0.95时 ,因此,该校三年级学生阅读能力得分95的置信 区间为: 当0.99时 , 因此,该校三

21、年级学生阅读能力得分99的置信区 间为: 1.5 平均数差异检验 v例:某小学历届毕业生汉语拼音测 验平均分数为66分,标准差为11.7。现 以同样的试题测验应届毕业生(假定应 届与历届毕业生条件基本相同),并从 中随机抽18份试卷,算得平均分为69分 ,问该校应届与历届毕业生汉语拼音测 验成绩是否一样? 总体平均数的显著性检验 v总体平均数的显著性检验是指对样本 平均数与总体平均数之间的差异进行的 显著性检验。若检验的结果差异显著, 可以认为该样本不是来自当前的总体, 而来自另一个、与当前总体存在显著差 异的总体。即,该样本与当前的总体不 一致。 1总体平均数显著性检验的原理 检验的思路是:

22、假定研究样本是从平 均数为的总体随机抽取的,而目标总 体的平均数为0,检验与0之间是否 存在差异。如果差异显著,可以认为研 究样本的总体不是平均数为0的总体, 也就是说,研究样本不是来自平均数为 0的总体。 2总体平均数显著性检验的步骤 v一个完整的假设检验过程,一般经过 四个主要步骤: 提出假设 选择检验统计量并计算统计量的 值 确定显著性水平 做出统计结论 检验步骤 v. 提出假设 H0:0, H1:0 或 H0:66, H1:66 v.选择检验统计量并计算统计量的值 学生汉语拼音成绩可以假定是从正态 总体中抽出的随机样本。总体标准差已 知,样本统计量的抽样分布服从正态, 以Z为检验统计量

23、 v计算 v.确定显著性水平和检验形式 显著性水平为=0.05,双侧检验 v.做出统计结论 v查表得Z=1.96,而计算得到的Z=1.09 v|Z|,则概率P0.05 v差异不显著,应在0.05显著性水平接 受零假设 v结论:该校应届毕业生与历届毕业生 汉语拼音测验成绩一致,没有显著差异 。 表101 双侧Z检验统计决断规则 Z与临临界值值比 较较 P值值 显显著性 检验结检验结 果 Z1.96P0.05不显显著 保留H0,拒绝绝 H1 1.96Z2.58 0.05P 0.01 显显著 在0.05显显著性 水平拒绝绝H0, 接受H1 Z2.58P0.01 极其显显著 在0.01显显著性 水平拒

24、绝绝H0, 接受H1 表102 单侧Z检验统计决断规则 Z与临临界值值比 较较 P值值 显显著性 检验结检验结 果 Z1.65P0.05不显显著 保留H0,拒绝绝 H1 1.65Z2.33 0.05P 0.01 显显著 在0.05显显著性 水平拒绝绝H0, 接受H1 Z2.33P0.01 极其显显著 在0.01显显著性 水平拒绝绝H0, 接受H1 v:从高二年级随机抽取两个小组,在化 学教学中实验组采用启发探究法,对照组采 用传统讲授法教学。后期统一测试,结果为 :实验组10人平均成绩为59.9,标准差为 6.640;对照组9人平均成绩为50.3,标准差 为7.272。问两种教学方法是否有显著

25、性差 异?(根据已有的经验,启发探究法优于传 统讲授法) 解题过程: v1提出假设 H0:12 H1: 12 v2选择检验统计量并计算 两组化学测验分数假定是从两个正态总体 中随机抽出的独立样本, 两总体标准差未知, 经方差齐性检验两总体方差齐性,两样本容 量小于30。因此平均数之差的抽样分布服从t 分布,应以t为检验统计量,选用公式(11.7 )计算。 计 算 1.6方差分析 方差分析又称为变异分析(analysis of variance,ANOVA),是由斯内德 克(George Waddel Snedecor)提出 的一种方法。 方差分析通过对多组平均数多组平均数的差异差异进 行显著性

26、检验,分析实验数据中不同来不同来 源源的变异变异对总变异影响的大小。 1方差分析的逻辑 v方差分析作为一种统计方法,是把 实验数据的总变异分解为若干个不同 来源的分量。因而它所依据的基本原 理是变异变异的可加性可加性。 v在统计分析中,一般用方差来描述 变量的变异性。 v方差分析是将总平方和总平方和分解为 几个不同来源的平方和平方和(实验数据 与平均数离差的平方和)。然后分 别计算不同来源的方差方差,并计算方 差的比值即值。根据值值是否显 著对几组数据的差异是否显著作出 判断。 4方差分析中的几个概念 v实验中的自变量自变量称为因素因素。只有一个自 变量的实验称为单因素实验单因素实验,两个或两

27、个 以上称为多因素实验多因素实验。 v某一因素的不同情况称为因素的“水平水平” 。 v水平包括量差量差或质别质别两类情况,按各个 “水平”条件进行的重复实验称为各种实验实验 处理处理。 Fmax检验统计决断规则 Fmax与临临界值值比 较较 P值值 显显著性 检验结检验结 果 FmaxFmax(df)0.05P0.05不显显著 保留H0,拒绝绝 H1 Fmax(df)0.05 Fmax Fmax(df)0.01 0.05P 0.01 显显著 在0.05显显著性 水平拒绝绝H0, 接受H1 Fmax Fmax(df)0.01P0.01 极其显显著 在0.01显显著性 水平拒绝绝H0, 接受H1

28、2方差分析的基本过程 v提出假设 v选择检验统计量并计算 分解平方和SS 分解自由度df 计算方差MS 计算F值 v作出统计结论并列方差分析 表 【例】 某水产研究所为了比较四种不同配合 饲料对鱼的饲喂效果,选取了条件基本相同的鱼 20尾,随机分成四组,投喂不同饲料,经一个月 试验以后,各组鱼的增重结果列于下表。 下一张 主 页 退 出 上一张 表6-2 饲喂不同饲料的鱼的增重 (单位:10g) 下一张 主 页 退 出 上一张 这是一个单因素试验,处理数k=4,重复数 n=5。各项平方和及自由度计算如下: 矫正数 总平方和 下一张 主 页 退 出 上一张 处理间平方和处理间平方和 处理内平方和

29、处理内平方和 总自由度 处理间自由度 处理内自由度 用SSt、SSe分别除以dft和dfe便得到处理间 均方MSt及处理内均方MSe。 因为方差分析中不涉及总均方的数值,所以 不必计算之。 下一张 主 页 退 出 上一张 对于【例】: 因为 F=MSt/MSe=38.09/5.34=7.13*; 根据 df1 = dft = 3 , df2 = dfe = 16 查附表4, 得F0.01(3,16); 因为 FF0.01(3,16) =5.29, P0.01 表明四种不同饲料对鱼的增重效果差异极显著,用不 同的饲料饲喂,增重是不同的。 表6-3 表6-2资料方差分析表 在方差分析中,在方差分析中, 通常将变异来源、平方和通常将变异来源、平方和 、自由度、均方和、自由度、均方和F F值归纳成一张方差分析表,值归纳成一张方差分析表, 见表见表6-36-3。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1