IRT在量表(测验)编制上的应用.doc

资源描述

《IRT在量表(测验)编制上的应用.doc》由会员分享，可在线阅读，更多相关《IRT在量表(测验)编制上的应用.doc（36页珍藏版）》请在三一文库上搜索。

1、目录前言-1第一章试题反应理论的概念与发展-2第一节试题反应理论的基本概念-2第二节试题反应理论与古典测验理论的比较-2第三节常见的IRT模式-6第四节 IRT的基本假设-13第五节当代IRT的发展-14第六节 IRT的应用-15第二章 IRT在测验编制上的应用-19第一节测验(量表)设计原理-19第二节选择模式-21第三节估计受试者程度值-22第四节试题分析-25第五节测验讯息量与测量标准误-28第六节检视资料的符合性-29第七节以IRT编制测验的实例-32前言试题反应理论(IRT)是测验领域中较新的技术，它已经被应用在教育、心理、医疗等相关领域中，如国中基本学力测验

2、、托福、GRE、GMAT考试，以及国外的一些人格量表与医学相关量表的编制。当代著名的计算机化适性测验(CAT)也必须仰赖IRT的理论与技术才能运作。本次工作坊的主要内容是以介绍IRT的概念与实务应用为主，上午的课程是先对IRT做基础概念的介绍，接着以生活品质量表与国中基本学力测验的发展为例，介绍IRT的基础应用，并有实际数据让学员上机操作，对于有量表发展需求者而言相当实用。下午是IRT的进阶课程，介绍IRT在多向度测验及计算机化适性测验上的应用，对于有兴趣发展人格量表、多元性向测验等多向度测验，或是想发展计算机化适性测验的人而言是很适合的课程。第一章、试题反应理论的概念与发展第一节试题反应理

3、论的基本概念试题反应理论(item response theory; IRT)主要是用来描述试题特性（难度、鉴别度、猜测度）与受测者的能力(潜在特质)如何影响其答题反应的一种数学模式。最简单的IRT模式如下列公式(1)所示（Rasch, 1960）：, (1)其中qj为考生j的能力，bi是试题i的难度，而Pij是受测者答对某个题目标机率。在IRT的模式中，受试者在某个题目上的答对机率是同时受到受试者能力与试题难易度所影响；而受试者在测验上的整体表现就是各题目答对机率的联合机率。藉由这个数学模式与联合机率的概念，我们就能根据受试者在各个题目上的答题反应来估计受试者的能力以及题目的难易度，并且让接

4、受不同题目的受试者其能力可以互相比较。IRT其实是许多试题反应模式的总称，当代已经有许多IRT模式分别适用在许多不同的测验情境中。常见的 IRT模式可以根据其所包含的试题参数数目来分，分为单参数的Rasch模式、二参数模式与三参数模式（Birnbaum, 1968）。也可以依据计分型态来分，分成二元计分（dicotomous）与多元计分（polytomous）模式；或是依据适用的作答方式来分，分成评定量尺（rating scale）模式、部分计分（partial credit）模式、名义量尺（nominal scale）模式等。第二节试题反应理论与古典测验理论的比较试题反应理论与传统测验理论

5、(classical test theory; CTT)的比较见表1-1所示(Embretson & Reise, 2000; Hambleton & Swaminathan, 1986)。大致可以从模式特性、试题参数特性、能力与分数量尺特性、测量精准度与应用等几个层面来看。1.模式特性：IRT的模式是针对单一试题的作答反应所提出的数学模式，在其模式中同时考量了受试者能力与试题特性对答对机率的影响，所以它是一种直接描述作答行为的模式。此外，IRT其实是许多试题反应模式的总称，这些IRT模式是分别依据各种不同计分方式与不同作答方式的测验情境所发展出来的。表1-1 试题反应理论与传统测验理论的比较

6、试题反应理论传统测验理论模式特性1.针对单一试题的作答反应所提出的数学模式。2.现有各种不同的IRT模式，适用于不同计分方式与作答方式的测验中。1.针对测验总分所提出的数学模式。2.各种不同计分方式与作答方式的测验都使用同一套模式。试题参数特性题目特性(参数)的估计不会受到试者能力所影响。题目特性(参数)的估计会受到试者能力所影响。能力与分数量尺特性1.对受试者的能力估计不会受到题目特性所影响。2.根据IRT模式与概似函数估计受试者最有可能的程度值，有比较强的数学理论基础。3.可以直接参照题目的特性来解释分数，也可发展出一套参照标准(常模参照或标准参照)来解释分数。4.用某些IRT模式可算出等

7、距量尺。1.对受试者的能力估计会受到题目特性所影响。2.根据各题目的配分直接加总所得的分数，间接推测出受试者的程度值，较缺乏数学理论基础。3.通常需要额外发展出一套参照标准(常模参照或标准参照)，才能解释测验分数的意义。4.当群体的分数完全符合常态分布时，才能转换出等距量尺。测量精准度(信度)测量精确度的评估是以题目为单位来计算再加总起来，因此受试者的测量精确度(讯息量)是随着受试者的能力以及所接受的题目特性而有所不同。测量精确度的评估是以测验为单位，因此接受同一测验的所有受试者其测量精确度(信度)都相同。应用编制测验(量表)、分数等化，编制题库、计算机化适性测验、组合测验编制测验(量表)整体

8、评估优点：具有能力估计不变性、具有题目参数估计不变性、测量精准度的概念较合理、应用层面较广。缺点：模式不易理解、能力估计与试题参数估计较麻烦，须仰赖计算机软件来分析。优点：模式简单易理解，能力与试题参数容易计算。缺点：不合理地假设不同人的测量精准度相同、应用层面较狭隘，受试者程度值会受题目特性所影响、题目参数值会被受试者特性所影响。传统测验理论则是一种针对测验总分所提出的数学模式。在传统测验理论中假设测验所得的分数是包含了真实分数与误差两个部份。如公式(2)所示：X(测得分数)=T(真实分数)+E(误差), (2)不过这个模式并未说明测验总分是如何得到的(一般都是直接对各试题的得分加总)，也不

9、知道受试者答题反应与题目难易度或受试者能力关系。在传统测验理论中，不论是使用何种题型、何种计分方式或作答方式，都是使用公式(2)来描述测得分数的特性，所以是一种与作答行为无关的数学模式。2.试题参数特性试题参数是指试题的难易度、鉴别度、猜对率等用来描述试题特性的指标。在IRT中，题目参数的估计不会受到试者能力所影响。这主要是因为在IRT中已经将试题参数与受试者能力同时纳进其模式里，因此在估计其试题参数时已经考量了受试者能力的影响，因此所估计出来的试题参数不会受到受试者能力所影响。所以在IRT中估计试题参数时，受试者是否具有代表性并不是很重要，只要受试者的人数够多(单参数模式至少200人，三参数

10、模式至少1000人)，程度值不会过度集中，就能够估计出稳定的试题参数。在传统测验理论中，试题参数几乎是完全决定于受试群体的能力。以难易度为例，如果受试群体的能力较高，则计算出来的试题难易度值(答对率)就变高，亦即题目变简单；如果受试群体的能力较低，则计算出来的试题难易度值(答对率)就变低，亦即题目变难。所以试题是难还是简单，完全取决于抽样时所选到的受试群体能力高低，因此样本的代表性对试题参数的估计有很重要的影响力。同样地，试题鉴别度也会明显地受到受试群体的能力分散程度所影响。3.能力与分数量尺特性在IRT中，对受试者的能力估计值也不会受到试题特性所影响，这也是因为IRT模式已经将试题参数与受试

11、者能力同时纳进其模式里，因此在估计受试者能力时已经考量了试题参数的影响，因此所估计出来的试题参数不会受到受试者能力所影响。此外，IRT的程度值是根据IRT模式与概似函数(likelihood)所估计出来的，有比较强的数学理论基础。而IRT的程度值与试题难易度值是共享同一个量尺，也就是说一个人的能力高低可以直接参照题目的难易度以及题目的描述句来解释，因此不需要参照群体就能详细地解释受试者的能力特性。最特别的是，如果使用IRT中的Rasch模式(单参数模式)，则所估计出来的受试者能力值具有等距量尺的特性，亦即其能力量尺的单位距离是相同的，这可以由Rasch模式的推估证明出来(王文中，民86)。在传

12、统测验理论中，受试者的能力值是直接加总测验中各题目的得分所得。当测验的题目较难，则受试者的得分通常会比较低；当测验的题目较简单，则受试者的得分通常会比较高，意即受试者的能力高低完全决定于他所接受到的题目难易度。而这种直接将各题目的得分加总形成能力值的做法也缺乏数学理论依据，因为人的能力并不是如此单纯的根据题目的答对情形来加总，否则只要重复地让一个人作同样的题目10次，能力岂不变成10倍。此外，传统测验理论所得到的分数无法直接依题目特性来解释，需要另外建立一套参照标准(常模参照或标准参照)才有办法解释测验分数的意义。而且传统测验理论所得的分数也不具备等距量尺的特性，因此其分数严格说来并不适合进行

13、四则运算，也不适合直接拿来做t检定或因素分析等统计运算。4.测量精准度IRT的测量精准度是以讯息量(information)的概念来表示。讯息量是指某种难度的题目对某种能力的受试者的测量误差平方根的倒数。如公式(3)所示：, (3)其中I为讯息量，为测量误差。测量误差愈低，对此人的测量就愈精准，因此该题所提供的讯息量就愈高。相同题目对不同能力者而言其讯息量并不相同，因此即使是接受相同的测验，对不同能力者而言，他们的讯息量或测量误差应该是不相同的。这种测量精准度的特性较符合实际的测验情况，因为测验题目的难易度很难同时适用于各种不同能力的受试者，对高能力者而言，题目可能过于简单而测不出其能力；对低

14、能力者而言，题目可能过难而也测不出其能力；只有对中等能力者而言，题目的难易度较适当，较能精确地测出其能力。IRT的讯息量概念恰可以反映出测验对不同能力者有不同测量精准度的现象。反观传统测验理论，其测量精确度的评估是以测验为单位所计算出来的，也就是测量标准误(standard error of measurement; SEM)。我们可以经由X=T+E的概念算出测验的信度(reliability)，再经由下列公式转换得来：其中为群体分数标准差，为r测验信度。由于在传统测验理论中，接受相同测验的受试者其信度都相同，因此测量标准误也被视为相同。而这样的假设显然与实际的测验情况是不符合的，因为测验中的

15、题目不见得对各种不同能力的受试者而言都适用。5.应用IRT是促进现代测验进步的重要关键，尤其是计算机化适性测验。基于IRT的单向度假定与受试者能力估计的不变性，接受不同题目的受试者其能力就可以比较，因此就能让受试者都接受适合于自己能力的题目，达到适性测验的目的。除此之外，IRT的试题参数较不受样本所影响，因此很适合用来发展题库；而IRT的能力也较不受试题参数所影响，所以也很适合用来进行能力分数的等化。另外，IRT也明确地建构出试题与测验之间的关系，因此可以直接根据测验的目的(例如希望对不同能力者的测量误差要低于多少)来选择测验题目，组成各种形式的测验。而传统测验理论的应用就比较局限在测验编制或

16、量表编制上，很难应用在上述各层面中。整体而言，IRT是属于理论架构较严谨、应用层面较广的测验理论，IRT所提来的诸多测量特性都较符合实际的测验情况；但是由于其模式较复杂不易让人理解，计算过程也较繁琐，因此尚未广泛地被大众所接受。不过随着计算机科技的进步，进行IRT分析时所需要的计算已经都可以用计算机来执行，因此也已经渐渐被应用在一些著名的大型测验中，例如国外的TOEFL、GRE测验，以及国内的国中基本学力测验等。而传统测验理论由于已经被使用许久，而且其理论概念较简单，目前现有的测验也大多以它为基础所发展出来的，因此短期内还不太容易被IRT所取代；然而它在测量特性上的一些问题以及应用层面的局限性

17、，已经让某些领域的测验(量表)编制者渐渐转向以IRT为理论基础来发展测验。相信未来IRT在测验评量领域的普及率应该会愈来愈广。第三节常见的IRT模式由于IRT是许多试题反应模式的总称，直到现在IRT模式还在发展中。以下仅以计分的方式来分，分别介绍常见的几种IRT模式。(一)二元计分模式二元计分模式是指受试者在题目上的答题反应只有答对或答错两种。这类模式又可以根据模式中所考虑到的试题参数个数来分，分为单参数的Rasch模式(Rasch, 1986)、二参数模式与三参数模式(Birnbaum ,1968; Lord , 1952)。1. Rasch模式Rasch模式如公式(1)所示，先前已经介绍

18、过了。在Rasch模式中认为，影响受试者答对机率的试题特性主要是难易度，因此只要了解人的能力与题目的难易度，就能知道该人在某题目上的答对机率是多少。而在Rasch模式中，所有试题都被要求要具有高鉴别度(都是1.0)，而受试者猜对题目标机率已经被纳入受试者能力中，而不是试题特性，因此猜对率为0。该模式最大的特色是它对试题的特性与受试者的作答反应有较严格的要求，如果都能符合这些要求，则所估计出来的能力值就能反映出受试者的真实能力，而且是等距量尺。根据Rasch模式，我们可以画出各试题的特征曲线(item characteristic curve; ICC)，如图1-1所示。对同一试题而言，一个人的

19、能力愈高其答对该题的机率应该也愈高，因此这个曲线是单调递增(monotonically increasing)曲线。由于每个试题都被要求需要有相同的高鉴别度，因此每条曲线在中段的部分看起来都很接近平行，整份测验的试题特征曲线放在一起就好像是一把尺上面有许多刻度一般。其中以答对率为0.5向右划一条横线，与各试题特征曲线的交叉点，对应到能力轴上的值，被定义为该题的难易度。由此也可以看出在IRT中，能力与试题难易度被视为是被放在同一个量尺上的相对概念，因为模式中两者的数值是可以直接相减的。图1-1 Rasch模式中不同试题的特征曲线图2.二参数模式二参数模式最早是由Lord (1952)所提出，当时

20、所提出来的是常态肩型模式，之后再经Birnbaum (1968)修改成较间单的对数模式，如公式(4)所示。, (4)其中是试题i的鉴别度，其它的符号意义与公式(1)相同。在二参数模式中，与Rasch最大的不同点是题目可以被允许有不同的鉴别度，而这些不同的鉴别度会对受试者答对题目标机率有不同程度的调节性影响。这种模式与实际数据的分析结果较为接近，因为命题者所设计出来的试题很难都具有相同的高鉴别度，有些题目的鉴别度总是不符合预期，但是依然能发挥部份的测量功能。二参数模式所画出来的试题反应曲线如图1-2所示。在图1-2中，有的曲线的中段是比较陡峭的(例如a1)，有的则是比较平缓的(例如a2)，这些题

21、目虽然具有相同的难易度，但是随着受试者能力的提升，他们答对这两题的机率变化情形却不相同。在a1中段的区域，能力只要有些微的改变其答对率就有显著的提升；而在a2中，同样的能力改变量，其答对率的提升情形明显不如a1。图1-2 二参数模式中不同试题的特征曲线图3.三参数模式三参数模式的概念也是源自于Lord (1952)与Birnbaum (1968)。这种模式主要是针对那些可以经由猜测来答对试题的测验情况，例如选择题、是非题等。如公式(6)所示。,(5)其中是试题i的猜对率，这里要特别注意的是此猜对率是指能力极低者猜对该题的机率，随着能力的提高，答对该题的机率仍然会提升，但可以提升的机率范围仅有。

22、由于在模式中，每个题目除了有难易度与鉴别度的特征外，还有可以被猜对的可能性，因此这种模式比二参数模式更能符合实际的数据。三参数模式的试题特征曲线如图1-3所示，从图1-3可以看出试题特征曲线更具有多样性。在图形左方，各试题特征曲线与纵轴的交叉点即为该题的猜对率，也就是能力很低者答对该题的机率。在以选择题为主的测验情境中，我们经常可以发现有些试题因为诱答选项设计不佳，或是题目中有些暗示答案的线索，造成即使能力很低者也容易猜对该题(例如c1)，此时就需要这类模式来找出那些题目。而三参数模式在估计受试者能力时也已经考虑了不同题目的猜对率对受试者答对机率的影响，因此所得到的能力值应该会比较符合其实际能

23、力水准。图1-4 三参数模式中不同试题的特征曲线图(二)多元计分模式多元计分是指受试者在题目上的答题结果不只有一种，而是有很多种可能性，例如：在成就测验中，经常有计算题、简答题或申论题等开放式反应的题型，根据受试者回答题目的完整性，分别给予不同的分数或等级。或是在态度量表中常见的Likert量表，将受试者在量表题目上的答题反应分成非常同意、大致同意、没意见、不太同意、非常不同意等，并分别给予15分。关于这些多元计分题的IRT模式相当多，在此仅介绍两种较常见的模式。1.部份给分模式部份计分模式(partial credit model, PCM) 是由Masters(1982)所提出来的，由于这

24、是他归纳各种适用于次序反应数据的模式所得，因此PCM的适用层面较广。只要是题目的评分点有次序的概念，得到低分比较简单，得到高分比较难时，就能适用于这种模式。PCM的概念如公式(6)所示：, (6)其中，是第i题的最高得分，而是第i题的第j个得分的难度阶(step difficult)。因此可以解释成在第i题所有可能的得分类别中，得到x分的机率有多高。例如，某个计算题的计分方式是03(即)分，受试者得到1分的机率是：而、就是分别从0分要变成1分、从1分要变成2分，或是从2分要变成3分所需跨越的难度阶(或是能力点)。这可以用图1-4来说明较清楚。在图1-4中，依各种能力者得到不同分数类别的机率所

25、画出来的曲线称为类别反应曲线(category response curve)。其中，曲线0与曲线1的交叉点即为，此即为从0分要变成1所需跨越的难度阶，或是当受试者的能力值高于时，则他得到0分的机率将会高于他得到1分的机率。藉由这种多元计分模式，我们可以知道受试者要在某个题目上得到某个分数时(例如：得到1分)，其能力的可能范围所在(例如：图中的之间)，因此就能够对受试者的能力作更精确的测量。但是要达到这个目标，需要有客观的评分结果。从另一个观点来看，也可以看成是评分者把受试者评为某种分数点的严苛程度，愈高，表示评分者对于该题要得到某个分数点的要求愈高，意即愈严苛。图1-4 多元计分模式中，在某

26、试题得m分的类别反应曲线图2.评定量尺模式评定量表模式(rating scale model, RSM)是由Andrich (1978)所提出来的，主要是适用在量表中所有的题目都有相同的计分方式时。例如：在自陈式人格或态度量表中常使用五点式或四点式的Likert量表来让受试者回答，每个题目都使用相同的评分点数，其基本假设是受试者在各评分点上的差异，对所有题目而言都是相同的。如公式(7)所示：, (7)其中为第i题的平均难度，是量表中各评分点的难度阶与平均难度之差距，而。由于RCM假定所有题目的都相同，因此不需像在PCM中样要估计出每个题目的难度阶，而是整份量表只需要估计出m个难度阶即可。RSM

27、所画出来的类别反应曲线与PCM很像，在此不再重复，读者可自行参考图1-4。唯一不同的是，在PCM中，不同题目的类别反应曲线中，各类别的相对位置都不太相同，如图1-5所示；但是在RSM中，不同题目的类别反应曲线中，各类别的相对位置都一样，只是平均难度不同，所以看起来只是整个图形向左或向右平移而已，如图1-6所示。图1-5 在多元计分模式，不同试题的类别反应曲线图图1-6 在评定量尺模式，不同试题的类别反应曲线图第四节 IRT的基本假设IRT有两项重要的基本假设，数据必须符合这些假设才能具备第二节所述的各项特性，否则就不适合用IRT模式来进行分析，当然也无法具备其良好的测量特性。此两项重要的假设

28、是单向度(unidimensionality)与局部独立性(local independency)。1.单向度单向度是指同一份测验中的所有题目主要都是测量相同的某一项能力，或是受试者在测验题目上的答题反应主要是受到单一项能力所影响。其实这是大部分测验的必备条件，只有当测验中所有题目都测到相同的能力，我们才适合将受试者在这些题目上的得分经由某种组合得到一个分数，用此分数来表示受试者在这项能力上的程度。例如，我们必须检验数学科测验中的所有题目是否都是在测量数学能力，而不是测到了其它能力，这样受试者的测验分数才能代表他的数学程度。如果其中有些题目因为语汇表达太艰深或题意不清，使语文能力较差的受试者看

29、不懂题目而答错，此时就表示这份数学测验不只测量到数学能力，还测量到语文能力，因此就不是单向度测验，不适合用IRT来进行分析。有些智力测验或综合能力测验(自然科、社会科)经常将许多测量不同能力的分测验放在一起，就整份测验而言即是违反单向度假定，因此不适合进行IRT分析，也不适合形成单一分数来解释受试者的能力。不过如果测验结果是将这些分测验分开来呈现，就能够用IRT模式来针对每个分测验进行分析。另外，当题目本身就是设计用来同时测量两种能力，受试者必须同时具备这两种能力才能答对时，也是违反单向度假定。幸好目前已经发展出多向度试题反应模式(multidimensional item response

30、theory; MIRT)可以用来处里这些测验(Adams, Wilson & Wang, 1997; Hattie, 1981; Mckinley & Reckase, 1983)。2.局部独立性局部独立性则是指相同能力水准的受试者，在各个题目上的答对机率是互相独立的。也就是说，受试者的潜在特质(能力)是影响答题反应的唯一因素，当排除这个因素的影响后，不同题目间的答题反应不会有任何关系。此假设其实是奠基于单向度假设上，当测验题目为单向度时，此假设才有可能成立；如果不是单向度，则不同试题的答对机率可能受到其它能力的共同影响，因此就无法符合局部独立性的假设。在成就测验中，常有一些试题会使用同一组

31、阅读材料或图片，称为题组(testlet)。例如：英语或国文能力测验中的阅读测验。受试者必须读完这些测验后再回答若干试题。如果这篇阅读材料是某些受试者事前阅读过或是特别熟悉的，则他们就比较容易答对这几题；而那些具有相同能力却对这类题材比较不熟悉的人就比较容易答错这几题，因此这些题目间的答题反应就会有相关，而违反局部独立性假定。像这类测验就不适合用IRT模式来进行分析，所幸现在已经发展出题组反应模式(testlet response theory; TRT)来解决这种问题(Wainer,Bradlow & Du, 2000)。第五节当代IRT的发展当代的IRT模式已经有数十种之多，分别应用在许

32、多不同的测验情境里。表1-2分别依据向度数量、计分方式、参数数量来分类，列举几种比较常见的IRT模式，以及几种常见的IRT软件。这些软件的价格并不高，且有些软件有免费的试用版本可供下载。在由评量系统公司中贩售有许多关于类IRT模式的书籍以及软件，也有些试用版本供下载，详情请洽。在众多模式与软件中，如果研究者没有特殊的考量，作者比较建议采用包容性较广的模式与软件。例如：相较于二元计分模式而言，多元计分模式显然比二元计分模式好，因为二元计分模式仅是多元计分模式的其中个特例，因此多元计分模式当然也可以用来分析二元计分的数据。同样地，采用多向度模式也比单向度模式好，因为单向度模式也是多向度模式中的特例

33、。至于参数个数，虽然Rasch模式也是三参数模式的特例，但由于Rasch模式是比较符合测量观点的模式，而且可以得到等距量尺，因此如果对测量特性的要求较高者可以考虑采用Rasch模式；不过如果测验题目的品质或实际数据不容易符合Rasch模式，则三参数模式也是不错的选择。表1-2 常见的IRT模式与相关软件向度数量计分方式参数个数模式提出者适用软件单向度二元计分单参数模式(Rasch模式)Rasch(1960)Bigstep,BILOG,BILOG-MG二参数模式Lord(1952)三参数模式Birnbaum(1968)多元计分类别反应模式(nominal response model)Bock(

34、1972)MULTILOG, ConQuest等级反应模式(grade response model)Samejima(1969)部份给分模式 (partial credit model)Wright & Masters(1982)评定量尺模式(rating scale model)Andrich (1978)多向度二元计分多向度二参数模式Mckinley & Reckase(1983)NOHARM,ConQuest多向度三参数模式Hattie(1981)多元计分多元计分模式Adams, Wilson & Wang, (1997)第六节 IRT的应用先前曾提到当代IRT可以应用在许多层面，包括

35、编制测验(量表)、分数等化，编制题库、计算机化适性测验、组合测验等，以下分别对这些应用做简单说明。1.编制测验(量表) 编制测验(量表)是IRT最基本的功能，许多IRT模式就是分别为了要因应各种不同的测验或量表类型所提出来的。测验编制者可以根据所发展出来的测验类型与评分方式，选择合适的IRT模式。如果成就测验中都是采用是非题、选择题等客观测验题型，就很适合用二元计分的IRT模式；如果包含计算题、简答题、申论题等开放式题型时，就可采用部份给分模式；也有专为语文类科的阅读测验或克漏字测验等相依题所设计的题组反应模式。如果是态度量表中采用Likert式的多点计分量表，就可以采用等级反应模式或评定量尺

36、模式。如果希望借着不同向度间的相关性来提高多元性向测验、人格测验或综合能力测验的测量精准度，还可以采用多向度IRT模式。IRT在测验(量表)分析上的功能主要有下列几项：(1)了解试题特征：估计试题的难易度、鉴别度、猜对率、计分点的难度阶等。(2)估计受试者潜在特质(能力)：估计出不受试题难易度所影响的受试者程度值。(3)筛选试题与修改试题：根据的模式符合程度来筛选题目；或根据题目特征选择难易度适当的高鉴别度试题，或修改猜对率较高的试题。(4)了解测验对不同程度特质(能力)者的误差：计算测验在不同能力点的讯息量以及测量误差。(5)发展测验的量尺：建立等距量尺；或在考量测量误差后将受试者能力值转成

37、所需的量尺分数。有关这些步骤的做法，将留待以后的章节中再作详细介绍。2.测验等化(equating)测验等化是指将受试者程度值(或题目参数)转换成相同量尺，以方便进行比较。由于IRT所估计出来的受试者程度值具有不受题目难易度影响的特性。因此，只要受试者能力符合IRT的模式与基本假设，即使受试者接受不同难度的试题，其所估计出来的能力值不需经过等化就可以放在同一个量尺上互相比较。不过其先备条件是题目参数必须先估计出来。IRT所估计出来的题目参数也具有不受受试者影响的特性，只要受试者的程度值不要过度集中，人数不要太少，作答行为符合IRT基本假设，就能得到稳定的题目参数值。不过估计题目参数所采取的预试

38、样本通常是在不同群体、在不同时间点作答不同组试题所得(因为让受试者同时作答太多试题容易因疲劳而干扰作答)，因此最好对这些试题进行试题参数等化(又称试题连结)。试题等化的过程需要从安排预试题目开始，例如要安插共同题到各题本中，并依同时估计法、平均数标准差法或特征曲线法来调整试题参数值。有关等化的问题需要有较多说明，将留待以后再述。3.建立题库题库是指将题目以及其相关的试题特性与试题参数建立在同一个数据库中，以便未来能够方便地从此数据库中依据测验目的抽选出所适当的试题来进行测验。题库中必须包含许多试题特征(命题者、字数、附图表等)，以及事先估计与等化过的试题参数，否则未来在选取试题来组合测验时就不

39、知要如何进行了。为了达到这个目的，建立题库通常需要花费相当庞大的人力、物力与时间。因此，只有在需要经常性施测(例如每隔一段时间就要施测一次)，或需要根据不同对象来组合测验，或需要进行计算机化适性测验时才值得建立题库。建立题库的大致步骤如下陈柏熹，；Wainer et al., 1990：(1)确定题库的目标(测验目标)(2)建立题库的双向细目表(3)甄选与训练大量的命题者与修(审)题者(4)根据命题原则设计试题(5)将试题内容与试题参数输入计算机数据库(6)修(审)试题 (7)预试与试题分析(8)分级、整理与补充试题有关题库编制的实际作法，将留待以后再作详细讨论。4.组合测验由于IRT的能力估

40、计不受试题参数影响；试题参数的估计也不受受试者能力所影响。因此我们可以根据不同程度者来发展出适合他们的测验，而且还能让接受不同测验的受试者能力可以放在相同的量尺上进行比较。组合测验通常是根据测验的目标或受试者的程度值来决定。最常见的受测验目标是希望达到的测量精准度有多高，就是测验信度水准。当然测验中各项内容的题数比例也需要符合测验的目标，此即为内容效度。只要该测验事先建立出完整的题库，就能根据一些测验组合策略，从题库中选取符合条件的题目来组成所需的测验。常见的组合测验的策略有程序选题法、0-1线性规划法，类神经网络法等。应用心理测量期刊(Applied Psychological Measur

41、ement)第22卷第3期中特别针对这项议题有详细介绍，有兴趣的读者可以自行参阅。5.发展计算机化适性测验IRT最吸引人的应用价值莫过于计算机化适性测验了。计算机化适性测验主要是利用计算机的快速运算速度，根据受试者的答题反应实时估算出其程度值，并立刻选出符合受试者程度值的题目让受试者作答。由于所选出来的题目都很适合受试者的程度，因此只需要少数题目(约传统非适性测验的1/21/3)就能达到与传统非适性测验相当的测量精准度。除了测量精准度之外，计算机制式的接口还可以帮助达到测验情境标准化，而其多媒体特性也能让测验试题更逼真，以彩色、动画、语音或互动操作的方式来进行测验，提升测验的效度。有关计算机化

42、适性测验的发展程序将留待后续章节再作详细介绍。第二章、IRT在测验编制上的应用第节测验(量表)设计原理有关IRT的测验设计原理，读者可以参考Wright与Stone(1979)所出版的经典读物优良测验设计(Best Test Design)。在该书中介绍了几项与IRT有关的测验设计原理，以下提出几点供参考。1.测量模式的概念测验所使用的模式必须符合测量的原理，此即为测量模式。些原理包括：a.要具有可以测量的潜在特质可以直接观察到或用客观物理工具直接测量的特质是不太适合用测验来测量的；例如高矮胖瘦。而特质本身若只有性质上的不同而无程度上的差异也不适合用测验来测量，例如问题解决流程、做事风格。

43、只有那些观察不到的潜在特质，而且不同人在该特质上会有程度上的高低差异时，才是适合用测验来测量的特质。例如：数学能力、情绪稳定性、焦虑程度等。b.欲测量的特质必须是单向度当要测量的特质是单向度时，我们就能够划出一条线来描述该项特质，并且设计出一些能够测量不同特质的题目，用受试者在这些题目上的作答反应来估计受试者在该特质上的程度值，如图2-1所示。如果不是单向度，我们就无法画出一条线来描述这个特质的高低程度，即使设计出一些题目让受试者去作答，我们也不知道要如何将这些作答结果来描绘出受试者的程度值。也就是说，测量国文的题目与测量数学的题目不应该被放在一起或相加成为一项分数，因为其不具意义。c.要根

44、据测验目的设计出能测量到不同程度特质的题目测量的目的就是要了解受试者在某种特质上的程度。如果许多题目所测量到的程度值都很接近，则受试者在该特质上的程度高低就无法被测量开来(如图2-2上)；此外，若题目所测到的程度值安排不恰当，也无法有效的测出受试者在该特质上的差异(如图2-2中)。当题目所测到的程度值能符合测验的目的均等地分散时，才能较真实地呈现出受试者的程度高低与差异(如图2-2下)。每天都有用不完的能量常做激烈運動還能活力十足身體功能正常，不影響日常生活從事簡單的活動(散步)後不會累沒有臥病在床休息與睡眠功能正常有辦法從事簡單的運動，如慢跑甲受試者乙受試者图2-1 单向度的测量概念甲受試

45、者乙受試者甲受試者乙受試者甲受試者乙受試者低程度題目高程度題目高程度題目高程度題目低程度題目低程度題目0分8分4分5分2分5分图2-2 不同程度题目的安排对测验结果的影响d.受测者的答题反应必须是合理的测量品质的好坏不只与测验题目的品质有关，也与受试者有关。如果受试者的作答反应很不合理，表示测量的过程有瑕疵，则测验结果将无法反映出受试者的程度高低。例如：在图2-1中，当甲受试者对于从事简单的活动(散步)后不会累右方的题目都觉得他做不到，而对于身体功能正常，不影响日常生活左方的题目都觉得蛮符合他的身体感受，此时我们就能说他对自己身体功能的感受是介于这两个题目之间。在图2-1中，如果受试者对右

46、半部的题目都觉得描述的非常像他对自己的身体感受，而在左半部的题目都认为很不像他，这就是不合理的反应。则我们将很难判断出受试者对自己身体感受的评估是高还是低。因为一个做完激烈运动还能活力十足的人，怎么可能无法做到从事简单的活动(散步)而不觉得累呢？e.分数量尺应该要符合等距的特性等距量尺是分数的重要特性，在数学上，数字应该要具有单位大小相同的特性的，此即为等距。意即3分与2分之间的差异，应该要等于2分与1分之间的差异。符合等距特性的分数才能够进行四则运算。但是在社会科学的领域里，我们却经常使用不具有等距特性的分数来进行四则运算，例如，相加形成总分、相减来比较差异大小等。这些运算其实都不符合数学上

47、的要求，当然也无法符合统计运算的基本要求。如果测验所得的分数不仅是描述受试者的程度值，还要进行后续的比较、分析时，就应该将测验分数转成等距量尺。Rasch模式所建立出来的量尺恰能符合等距的要求，这也是为何在众多IRT模式发展出来后，仍然有许多学者一直独钟于Rasch模式的主要原因。第二节选择模式使用IRT来发展测验时，第一个会面临到的问题就是应该要选择何种模式来进行分析，其中又以要选择单参数模式、二参数模式还是三参数模式来分析的问题最具争议性。根据Embretson与Reise(2000)的建议与作者的经验，选择IRT模式时应考量几项因素：1.计分或估计能力时，是否要对题目进行加权？如果认为各题目对于能力估计都同等重要时，就表示不需要加权，此时可以选单参数模式；如果不是，就要选二参数或三参数模式。2.对量尺特性的要求。如果研究者希望分数量尺要符合等距的特性，就要使用单参数模式；如

展开阅读全文