
文章图片

文章图片
项目反应理论:介绍、优势和模型·内森·汤普森 , 博士
·11月8日2016
项目反应理论(IRT)代表了心理测量学领域的一项重要创新 。 虽然现在已经50岁了——假设“出生”是经典的Lord and Novick(1969)文本——但它仍然没有得到充分利用 , 对许多从业者来说仍然是一个谜 。 那么什么是项目反应理论 , 为什么会发明它呢?
项目反应理论不仅仅是一种分析考试数据的方法 , 它还是一种推动设计、构建、交付、评分和分析评估的整个生命周期的范例 。 它比它的前身经典测试理论复杂得多 , 但也要强大得多 。 IRT需要相当多的专业知识 , 以及专门设计的软件 。 点击下面的链接下载我们的软件Xcalibre , 它为实施IRT提供了一个用户友好的可视化平台 。
驱动因素:经典测试理论的问题经典测试理论(CTT)已有大约100年的历史 , 并且仍然被普遍使用 , 因为它适用于某些情况 , 并且它足够简单 , 可以被许多人使用 , 而无需接受过正式的心理测量学培训 。 大多数统计数据仅限于均值、比例和相关性 。 然而 , 它的简单性意味着它缺乏处理许多非常重要的测量问题的复杂性 。 这里仅举几例 。
·样本依赖性:经典统计量都依赖于样本 , 并且在不同的样本上不可用;来自IRT的结果在线性变换中与样本无关(即 , 不同能力水平的两个样本可以很容易地转换为相同的尺度)
·测试依赖性:经典统计与特定的测试形式相关联 , 不能很好地处理由多个形式、线性动态测试或自适应测试引入的稀疏矩阵
·弱链接/等值:CTT有许多方法可以链接多种形式 , 但与IRT相比 , 它们很弱
·衡量学生的范围:经典测试是为普通学生建立的 , 不能很好地衡量高或低的学生;相反 , 非常困难或容易的项目的统计数据是可疑的
·CTT 无法进行垂直缩放
·缺乏猜测: CTT不能解释对多项选择题考试的猜测
·评分:经典测试理论中的评分不考虑项目难度 。
·自适应测试:在大多数情况下 , CTT 不支持自适应测试 。
在此处了解有关CTT 和 IRT 之间差异的更多信息 。
那么什么是项目反应理论呢?它是一系列数学模型 , 试图描述考生如何对项目做出反应(因此得名) 。 这些模型可用于评估项目性能 , 因为描述本身非常有用 。 然而 , 项目反应理论最终做了更多的事情 - 即解决上述问题 。
IRT是模型驱动的 , 因为假设有一个特定的数学方程 。 有不同的参数可以根据不同的需求塑造这个等式 。 这就是定义不同 IRT 模型的原因 。
项目反应理论的基础IRT的基础是由项目参数定义的数学模型 。 对于二分项目(得分正确/不正确的项目) , 每个项目都有三个参数:
a:判别参数 , 衡量项目在低考生和高考生之间差异的指标;通常范围从 0 到 2 , 其中越高越好 , 尽管没有多少项目高于 1.0 。
b:难度参数 , 项目适合哪个级别的考生;通常范围从-3到+3 , 0是平均考生水平 。
c:伪推理参数 , 它是较低的渐近线;通常侧重于 1/k , 其中k是选项数 。
这些参数用于以图形方式显示项目反应功能(IRF) 。 下面是一个示例 IRF 。 此处 , a 参数大约为 1.0 , 表示一个相当有区别的项 。 b 参数约为 0.0(曲线中点所在的 x 轴上的点) , 表示平均难度项;中等能力的考生有60%的几率正确回答 。 c 参数约为 0.20 。
这在概念上意味着什么?我们试图模拟考生对项目响应的交互作用 , 因此命名为项目反应理论 。 将 x 轴视为标准正态量表上的 z 得分 。 能力较高的考生更有可能做出正确的反应 。 +2.0(第 97 百分位)的人有大约 94% 的几率获得正确的项目 。 与此同时 , -2.0的人只有37%的几率 。
当然 , 参数可以而且应该因项目而异 , 以反映项目性能的差异 。 下图显示了五个 IRF 。 深蓝色线是最简单的项目 , b 为 -2.00 。 浅蓝色项目是最难的 , b为+1.80 。 紫色的c=0.00 , 而浅蓝色的c=0.25 , 表示它很容易被猜测 。
这些IRF不仅仅是一个漂亮的图表或描述项目性能的方式 。 它们是实现前面提到的这些重要目标的基本组成部分 。 接下来...
推荐阅读
- 感性认识中的感觉与感知(五)
- 科学家发现,6500万年前可能有恐龙登上了月球,这是咋回事?
- 中国“嫦娥5号”在月球上获“颠覆性”发现
- 你根本不了解这颗星球:地球上曾经生活过1150亿人
- 2030年左右,中国计划载人登月,如何实现地球和月球的往返?