第讲测验的信度问题定稿.ppt

上传人:本田雅阁 文档编号:3216490 上传时间:2019-08-01 格式:PPT 页数:35 大小:226.05KB
返回 下载 相关 举报
第讲测验的信度问题定稿.ppt_第1页
第1页 / 共35页
第讲测验的信度问题定稿.ppt_第2页
第2页 / 共35页
第讲测验的信度问题定稿.ppt_第3页
第3页 / 共35页
第讲测验的信度问题定稿.ppt_第4页
第4页 / 共35页
第讲测验的信度问题定稿.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《第讲测验的信度问题定稿.ppt》由会员分享,可在线阅读,更多相关《第讲测验的信度问题定稿.ppt(35页珍藏版)》请在三一文库上搜索。

1、第五讲:测验的信度,第五讲:测验的信度,5.1 经典真分数理论 5.2 估计信度的方法 5.3 影响信度的因素 5.4 信度系数的用途,前言,信度即可靠性,是指测量结果的一致性程度。 分数受到测量误差的影响。测量误差有两类,一类是随机误差,另一类是系统误差。随机误差对测验分数的影响的方向是不定的 ,系统误差对分数的影响是稳定的 。随机误差的来源有许多,如猜测、测验环境、评分的错误等。系统误差来源于人的或测验的某些与所测能力无关的因素。,A B C,5.1真分数(true score)模型,5.1.1真分数模型及其基本假设 真分数模型: 对于任何一个观测分数,都可以把它看成是由两部分组成的,一部

2、分是真分数,即被试的真实能力,另一部分是误差分数,即由随机误差造成的分数。这个模型用公式表示就是: XTE;其中 X是观测分数,T代表真分数,E 代表随机误差。,例:有一个10个题的测验,被试有三个,他们答题的具体情况是: X1725 X2437 X3808,基本假设一:误差分数是随机的、非系统的,因此它和真分数之间没有相关,即真分数和误差分数是零相关。 基本假设二:对一组被试来说,误差分数的平均分等于零。因为误差的作用有正有反。 基本假设三:两次测量的误差分数之间的相关为零。因为误差是随机出现的,因而两次测量所产生的误差应当是相互独立的,它们之间没有必然联系。,根据三个基本假设,可以推出观测

3、方差中包含了真分数方差和误差的方差:,5.1.2 信度系数,信度概念说的是测验分数中有多少是稳定的,也就是说真分数在总分中所占的比例有多大。相应的,也就是真分数方差在总分方差中所占的比例有多大,因此,我们用r来代表这个比例,即:,5.1.3 平行测验概念的引进,假定有两个测验,所测的是同一种能力,同一组被试在这两个测验上具有相同的真分数,而且,两测验的误差的方差也相同,这样的两个测验是平行测验。 由于随机误差的存在,平行测验的观测分之间不可能完全相关,其相关程度取决于误差的大小。 根据平行测验的概念和真分数理论的三个基本假设,平行测验观测分之间的相关,等于其中任一测验真分数方差与总方差的比值,

4、即:,5.2 估计信度的方法,在真分数模型里,估计信度的方法分为三类,每一类所侧重的误差来源不同。对内部一致性程度的估计,侧重测验自身和评分程序的误差;对稳定性的估计侧重不同时间得出的分数间的一致性;对等价性的估计侧重同一测验的不同形式是否对等。,5.2.1再测信度,概念:同一测验让同一组被试做两次,两次测验中间隔一段时间。计算两次测验分数之间的相关,其相关系数表明该测验随着时间的推移是否保持稳定。 使用再测信度时要注意练习效应和学习效应,注意选择合适的时间间隔。,5.2.2复本信度,复本测验是指在性质、内容、题型、难度等方面都一致的两份或多份测验。同一组被试在复本测验上所得结果的相关系数就是

5、复本信度。,5.2.3 内部一致性信度,内部一致性是指同一测验里的各题目或各部分题目是否测了同一个东西。如果测验的各个题目测的都是同一个东西,这些题目间就有一致性,反之,题目之间则没有一致性。 估计内部一致性信度的方法有很多种,这些方法大致可以归为两类。一类是通过测验两半的相关来估计,另一类是通过题目的方差来估计。,0/1计分测验的内部一致性信度,分半信度: 概念:将每一个被试的测验分数按测题分成两部分计分,然后用每个被试在两半测验上的得分求出整个测验的信度。一般的做法是奇数题为一半,偶数题为另一半。 计算分半信度的方法 (1)Spearman-Brown 预测公式 rxx= krii / 1

6、+(k-1)rii,分半信度是上式的一个特殊应用 。计算分半信度时,我们先把一个测验的题目随机地分成相等的两部分,计算两半题目之间的皮尔逊积差相关,所得相关系数代入下式:,(2)Rulon公式估算法 rxx=1 - (d2 / t2 ) d2 表示每个被试两半测验分数之差的方差 t2 表示测验总分的方差 (3)Flanagan 公式估计法 rxx=21- (a2 + b2 ) / x2 a2 和b2 分别表示两个分半测验的分数的方差 x2 表示总分方差,用KR-20公式计算内部一致性信度,K-R即Kuder-Richardson二人的名字缩写 KR-20公式要求题目难度相等或相近。,k 是题目

7、数,p 是通过率, q是 1-p, 是全卷方差,非0/1计分测验的内部一致性信度,上面的方法只适用估计0/1计分的测验信度。Cronbach 1951发表了题为Alpher系数和测验内在结构的文章,提出一个公式,用来计算测验的内部一致性信度,叫Alpher系数。,K:题目数,:测验各部分方差的总和,:总分方差,评分者信度,主观性测验的评分受评分者主观因素的影响而产生误差。因此这类测验的信度是以评分者所评分数之间的相关系数来表示的,故称为评分者信度。 对于一个评分者来说,我们要知道他打出的分数稳定性有多高,这就是评分者内信度(intra-rater reliability)。对于若干个评分者来说

8、,我们需要知道,他们给出的分数一致性有多高,这就是评分者间信度(inter-rater reliability)。,评分者内信度,产生误差的原因:改变了评分标准或对标准的掌握不能始终如一。 方法: 首先要得到两个独立的样本。做法是,对一组被试的表现先由评分者评一次分,然后,还是这组被试,打乱顺序,由这个评分者再评一次分。 接着把这两组样本当做平行测验,计算它们之间的Spearman等级相关,其相关系数就是信度值。,评分者间信度,产生误差的原因:评分标准和对标准的掌握,在不同的评分者之间会不一致。 方法: 若只有2位评分员 可以计算两人所给分数之间的相关,相关系数就是两个评分员所给分数的信度系数

9、。,若有2位以上的评分员 1)当用连续计分法对测验结果进行评定时,用系数来估计 2)当K个评分员用等级对n个测验结果进行评定时用肯德尔和谐系数来估计。 W = K是评分员的人数,N是被试人数或答卷数,Ri 是每个被试所得等级的总和。,速度测验的信度估计,从再测信度和复本信度的角度去估计速度测验的信度是比较合适的。 估计复本信度时,可以采用分半时间的办法,即把测验的一半题制作成一份试卷,另一半制作成另一份试卷,每份试卷的答题时间是原答题时间的一半,然后计算被试两份子测验得分的相关。,5.3 影响信度的几个因素,被试的异质性程度 被试的异质性程度越高,真分数的方差就越大,信度也就越高。 时间限制

10、在严格的时间限制下,被试的答题速度对分数有明显的影响,也就是说被试真分数的方差不仅包括被试对题目反应的差异,也包含了被试答题速度的差异。在这种情况下,信度系数就被高估了。,题目数量越多,信度越高。这从Spearman-Brown 预测公式可以看出, rxx= krii / 1+(k-1)rii 因为各平行测验的信度都相等,总信度系数的大小就取决于k 的大小,k 越大,也就是题数越多,信度越高。利用这个关系,我们可以估计试题增加后新的信度系数会是多少。 假定我们有一个30题的测验,其信度系数是0.6,如果我们把题数增加到90 题,也就是使 k3 ,根据上式,我们就可以算出新的信度系数。 = =

11、0.82,测验的长度,估计要得到一定的信度系数,测验需要增加多少。 如:原信度0.5,题目20个,要达到0.8的信度需要多少题目。 K = rkk(1-rxx)/ rxx(1-rkk)= 0.8(1-0.5)/0.5(1-0.8)=4; 20*4=80。当题目为80个时信度可达0.8。 测验长度与测验信度的函数关系可以表示为一条单调递增的渐进曲线,也就是说,测验的信度(内部一致性信度)随题目数量的增加而提高,但提高的幅度渐趋缓慢。在实际情况中,如果测验题目过多会引起被试的疲劳效应,甚至会使被试产生厌烦心理而影响到测验的信度,因此一个可靠的测验应当是长度合适的测验。,测验难度 测验难度与信度没有

12、直接对应关系,但是当测验太难或太容易时,分数的范围就会缩小,从而降低信度。当测验难度水平为0.5时,信度最高。 题目区分度 题目的区分度与测验信度关系密切。区分度好的试题对被试的真分数估计得较准确,测量误差较小。如果一份试卷中题目的区分度都很好,测验的信度就会很高。,5.4 信度系数的用途,一评价测验 信度系数是衡量测验好坏的一个重要技术指标。一般水平测验和成绩测验的信度应在0.9以上。性格、兴趣、态度等人格测验的信度系数通常在0.80.85之间。,二.解释分数,测验的标准误差(标准误SEM):是测量误差分布的标准差,表示测量误差的大小。 计算公式为: SEMx 测验信度越高,标准误越小,由于

13、测量误差的存在,被试在测验中的得分有可能高于真分数,也有可能低于真分数。为了解释被试所得分数的真正含义,我们需要利用测量的标准误来估计出被试真分数的范围。 根据区间估计的方法,假定一个测验的标准误是SEM=10,被试得分X=50,如果我们想使推测的正确率达到95%,被试的真分数就落在观测分上下1.96个标准误的范围内, 即 (X-1.96SEM)T(X+1.96SEM),结果是30T70。这表明,被试的真分数落在30到70分之间的可能性有95% 。,如果这里有一个分数线,我们会看出,分数线和置信区间是有矛盾的。假如分数线是60分,一被试得分50,取95% 置信水平,我们很难说该被试的真分数是在分数线的哪一边。 由于测量误差的存在,我们在做决策(比如制定分数线)时就要格外小心。当然,标准误越小,我们在根据测验分数做决策时犯错误的可能性就越小。,正态分布下的标准误差,思考题: 1 真分数理论的基本内容是什么? 2 估计信度的方法有哪三大类? 3 内部一致性信度的估计方法有哪些? 4 怎样估计主观性测验的信度? 5 影响信度的因素有哪些? 6 标准误在解释测验分数时有什么作用?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1