Citation:Bristow M, Erkorkmaz K, Huissoon J P, et al. A control systems concept inventory test design and assessment[J]. Education, IEEE Transactions on, 2012, 55(2): 203-212.
一. 文章内容的介绍:
- 背景介绍:
在教学工作中,针对特定的课程可以提出相应的教学方法去提高教学质量,但是对于提出的方法进行评估监测是必不可少的。
该实验测试的群体是加拿大滑铁卢市,滑铁卢大学机械工程大三学生,针对的是在该校开展的“控制系统导论课”的问题。在该学校中,通过课下调查得知学生们通常将该课定义为“教学计划中最没有用的课”。于是,机械(ME)和机械电子(MTE)系决定要对这门课进行改进。作为对比,在机械电子的学生中也开展该门课。对于ME和MTE的学生分别开展这门课,整个课程持续12周,其中包括每周三个小时的理论课,每周1个小时的专题讲座,2至3个实验课,每个实验课2小时。
2.CSCI的概念:
可以将基本的概念用如下的方式进行识别和标记:系统模型,反馈,时间响应,稳定性以及频率响应。
该研究中作者将概念空间分成现实世界的物理模型以及虚拟世界抽象模型。要想分析以及设计一个控制系统必须熟练掌握对这些空间的操作(如图1):
3.测试问题样例:
对于测试问题的设计,研究者设计的问题与先前的考试类型不同,但是与先前的清单以及诊断性测试一致。这些问题要求使用通俗的语言使得学生们在完成课程后可以准确的回答出来,同时这些问题要能够显示出引起学生们态度和思想习惯的错误和难题。CSCI的目标就是发现一些概念性的难题。在该文章中,设计者依次设计了不同难度的题目,依次渐进,如BOXA,B,C中。 样例如下:
(1) BOX A中的,该图主要考察的是学生们是否能够将物理系统中的动态行为与时 间响应的图形表示建立联系。用的是阻力与车速之间的关系
(2) BOX B中展现的是:为了更好地理解一个概念,还要对所了解知识的背景以及专 业术语有所了解,基于此针对这类一共设计了7个问题,而在该图中仅展现了第一个问 题。该问题将物理系统中的动态行为与该系统中的时间常量建立联系。
(3) BOX C中针对问题设计中多项选择题的设计,该问题添加了“they are all correct ”选项,在该文中的第四部分的诊断性测试评估可以明白该题是一个设计不充分的题目。 该题以探索学生们对于极值点的位置和系统响应时间之间的关系,来说明我们需要辨别 出是否是误解题目本身还是对于基本概念的误解。
4.CSCI的设计
在该部分针对文中提出的新的学习方法进行描述并且分析该测试结果。
该测试的目标是为了测试教师提出的教学方法的效果,因此以学生为评判对象,让受 益 群体学生来进行实际的打分。通过学生对所学知识的掌握程度来反应教师教学的效 果。当然对于参与的学生采取奖金激励制。
对于概念的理解考察了两个方面的内容:
(1) 对概念本身的理解,根据教学前和教学后的分别测试,以增益比来进行衡量。在之前的研究中,对于概念的增加采用标准增益,但是这样的方式不考虑测试前后不同学生的不同响应,因此会丢失很多数据。基于这样的考虑,在该文中就将测试前后每个学生的反应考虑在内,得到如下的表达式:
(2) 该研究中除了对概念本身理解的增益进行考察,同时对学生回答问题的信心度也进行了考察:
衡量一个学生完全掌握一个概念,用如下表达式表示:
(3) 简答题的形式考察
除了设计相应的多项选择题,在该研究中还设计了主观的简答题,并且对于学生 回答的程度进行相应的分类,依次为:Level 0:ME=6.3%,MTE=8.3%表示教学前 的测试中没有给出回答的学生比例。Level 1:ME=3.2%,MTE=4.2%表示简单阐述 一下期望答案的学生比例。Level 2:ME=44.4%,MTE=19.4%表示学生们认识到该 问题中的对象并且简短阐述一下用他们自己的方法去解决该问题的学生比例。Level 3:ME=27%,MTE=43%表示学生们阐述了对该问题的深入理解通过借用一些反馈规 则的学生比例。Level 4:ME=19%,MTE=25%表示一些学生将该问题中的特征与现 实世界答案进行匹配或者是从物理第一原则得到解决方案,标志着他们希望了解基本 的概念并且应用于不同的问题的学生比例
5.CSCI的评估
在该文中提出了诊断性测试,用CTT指数,IRT函数以及统计相关性来判断测试的质量并且指示该测试的不足之处和可以改进的地方。
以CTT难度系数,区别度以及可靠性指数来评估该经典测试: CTT难度系数就是学生们正确回答出问题的比例。作为启发式教育来说,低于0.5的被认为是比较难的题,老师们主要集中于考察大多数学生们感觉比较难的概念。CTT区别指数被定义为在一个项目中,学生们回答正确的比率排名前三的减去回答正确比率排名倒数第三。
为了确定一个项目的接受度,该研究使用CTT区别指数,Streveler等人认为最小值是0.2比较合适,然而Steif 和Dantzler则认为0.3是比较理想的最小值,该研究中则认为只要高于0.2,那么该题目就有比较好的区别度。
克伦巴赫α系数被用来衡量一个测试的内部统一性以及每一个题目对总体测试可靠性的贡献。α值从0到1之间变化;当α高于0.6就被认为该题目是可接受的,当高于0.7的时候就被认为是高度可靠的。在该研究中可以看到对于教学前以及教学后的测试中,ME学生的α值分别是0.63(pre)和0.61(post),对于MTE学生来说,分别是0.61(pre)和0.68(post),对于那些在测试中影响整体可靠性的题目应该移除或者重新设计在TABLE V 就展示了该测试中可以移除或重新设计的题目。
试验中发现有趣的一点是对于影响测试可靠性的要么是太简单的题目要么是区别度不高的题目。
阴影的就是可以删去或者重新设计的题目,从而提高可靠性。
(1) 项目响应理论(IRT)
IRT是CTT的一个改进,但是他也同样根据学生们的能力为定制的自适应测试提供一套理论。CTT常被用于为整体学生设计测试,而IRT则可以为单个学生深入设计测试。 用2参数模型来评估该参数:
式中的概率 是回答正确的概率,
是区别参数,
是第i个题目的难度参数。难度参数与以0.5的概率正确回答一个问题的能力水平是一样的。区别参数也就是IRF的最大斜率;当区别值为0时意味着任何能力水平的学生都有同样的机会回答正确。难度与区别参数与θ的上下限值是成比例的,
与θ是成反比的,而
则成正比。
(2) 题目以及测试的信息函数(TIF、IIF)
在该研究中使用题目信息函数(IIF)来表征在整体测试中一个题目的精度,使用2参数模型来计算该函数。IIF可以生动的表示那些包含在各个题目中,可以减少测量误差的信息文中采用2参数模型来进行计算。通常,对于区别度很高的题目会在一个较窄的范围内提供足够多的信息,而区别度较低的题目即使在一个很宽的范围内也只能提供比较少的信息。
测试信息函数(TIF)是一个测试中所有题目的信息函数(IIF)之和。撇开可靠性而言,TIF对于不同能力水平的分别评估其精度。对于期望得到的TIF图形则依赖于期望的学生的能力范围,期望在那样的范围内的较高精确度。
(3) 同时效度
为了确定一个测试的有效性,就测试以及课程材料来说都是均衡的,将教学前以及教学后的测试分数与期中,期末考试以及课程整体分数建立联系,这一联系被用来计算并且在表VI中列出来。通常,教学后的测试分数与其他考试以及整体的分数有较强的联系,这是符合教学后测试平均分范围内的最高测试精度的。
二. 文章的不足之处
在文章中多次提到了与学生以及授课者进行谈话的必要性,可是在文中却没有提及到具体的。
三. 我的想法
针对他的不足之处,我觉得可以在我们的文章中加入安老师提出的“田野调查”,这可以作为除了问卷调查外的一种新的调查方式