学习笔记:Peer and Self Assessment in Massive Online Classes

Citation:Kulkarni C, Wei K P, Le H, et al. Peer and self assessment in massive online classes[J]. ACM Transactions on Computer-Human Interaction (TOCHI), 2013, 20(6): 33.

学习者:李昌群

摘要:同行以及自我的评价体系提供了一个将评估和学习扩展到全球教室的机会。这篇文章主要报道了他们使用同行与自我评价体系所做的实验,该实验使用两次迭代法去分析第一大在线课程。在该门课中,同行的等级与员工分配等级是密切相关的。在第二次迭代中,在5%员工级别内有42.9%的学生级别,10%员工级别内有65.5%的学生级别。一般而言,学生们总是估计他们的工作量要比教职工的工作量高出7%。学生们对于同伴之间的打分存在一定的地域偏见的,往往给和自己来自同一国家的同伴们的打分比来自其他国家的同伴高出3.6%。为了提高等级精度,文章做了三组实验。研究发现:如果对于学生们的这一等级偏见给予反馈的话将可以提高其评估精度。接着文章介绍了一些简短的,可定制的反馈片段,这些片段涵盖作业常见的问题,为学生们提供更多的同伴反馈,这一反馈是定性的。最后引入了数据驱动的方法,该方法突出高方差项来提高等级精度。研究发现使用平行的句子结构,明确的措辞,以及明确规定的注释可以获得较低的方差。在修改评估准则之后,中位数的分级错误从12.4%降至9.9%。

 

一.课程总体介绍:

1.课程内容:该门在线课程是对以人为本互动设计的介绍。该课程对任何感兴趣的同学都是免费开放,其课程材料是来源于斯坦福大学的HCI导论。在上课期间,学生们首先看视频,接着回答一些简短的问题,最后完成每周课程的作业。在某个特殊的学习周,学生们看了四段视频,每个视频的长度12到15分钟。将上课的视频以及课中嵌入的多项选择累积到一起,视频长度多大450分钟。多项选择题考查学生们对于视频中材料的理解程度。更重要的是,学生们完成了5个设计性的作业。每一个作业都包含了一个长课程的设计,该设计要求学生们设计一个网站,该反馈计思想来源于三种设计大纲之一。

2.认证:学生们在上完相应的课程后,每项作业的得分都在80分及以上的就可以获得一份电子的认证证书(但是和大学的学分不挂钩)。在第一阶段中就有501个学生拿到了这份证书,595名在第二阶段拿到;第一阶段中有1573个人收到了一份新手证明,这些人大多是只看了相应的视频但是没有其他表现的,,同样的在第二阶段有1923这样的人。

3.上课者概况:与其他在线课程有些许相似之处,大规模在线课程HCI吸引了为数众多的,各种各样的参与者;在第一阶段有30,630名学生看了视频,同样的在第二阶段有35,081名学生观看了视频(每一阶段中都有32.5%的女性)。55%的学生介绍他们是全职工作的(在每一个阶段)。两个阶段中,学生的平均年龄范围在25到34岁,范围如此之大。同样的,两个阶段中,有大学来自124个国家的学生注册了该门课程,大约71%的是非美国人士。他们将该视频翻译成13重语言。

4.课程作业:据完全统计,第一阶段中有2,673名学生提交了作业,第二阶段是3,203名。在第二阶段中允许学生们用西班牙语来完成该作业,于是有223名学生用了西班牙语。学生们的问题解答主要通过在线的课程论坛。通过该门课,该论坛在第一阶段中拥有了1,657名参与者,第二阶段中则有2,212名。所有的课程作业都是在线提交并且使用标准的同行评估准则进行打分。有些作业要求学生们自己制作实物,例如纸质模型并且上传照片。

二.实验阶段(为了提高评估的精度所做的实验):

1,采用添加解释文件的方法:每一项任务都包含了一份描述评估准则的解释性文件。该解释性文件包含了一些指导性问题或者有关学生作业评估的其他方面的介绍。解释性文件随同作业一起公布,所以学生们在完成作业时可以参考这些准则。

2.对比实验来消除地域偏见:为了避免学生评估时固有的偏见,该文章做了一组实验,也就是针对学生所做的评估寄予相应的评估反馈。参与者是随机的从已经完成第二阶段第二项作业的学生中抽取756人。实验设置了两组,一组是有反馈的,一组则没有。为了产生偏见反馈,系统将参与者的评分与教职工的评分进行比较,如果差距超过10%,则标注为太高/太低;否则该反馈就被标注为正合适。在具有反馈条件的组中,高/低/合适反馈信息正好出现在你评估栏上面,而在另一个控制组中则没有。实验结果过表面,该反馈技术有效的降低了评估错误率。对于评估错误率的估计我们建立了一个线性模型进行评估。具有反馈的组中收到的反馈如下:

 

 

 

3. fortune oookie”方法提高评估精度:研究中为学生们提供个性化的,定性的反馈,也称为“fortune oookie”,实验要求“fortune oookie”可以从两方面对学生表现的问题进行解决。一个是对于学生们表现出的薄弱的地方给予有用的建议。第二就是希望突出提高学生能力的策略。“fortune oookie”,工作中使用χ2测试,

 

 

 

 

 

4.数据驱动的方法来提高方差项,从而提高评估精度:接下来便是采用数据驱动的方法来提高评估精度。该阶段中,研究工作改变之前的注释格式。在之前的注释中,大多使用非平行语法结构的句子,事实证明这样的注释使得学生们无法正确理解,于是实验中使用平行结构的句子来提高注释的易读性,,如此实验结果表明学生们可以更好地理解注释内容,从而有效地提高了评估的精度。

 

anyShare分享到:
This entry was posted in 学习笔记, 研究探索 and tagged , . Bookmark the permalink.

2 Responses to 学习笔记:Peer and Self Assessment in Massive Online Classes

发表评论