天空中的一个模式分享 http://blog.sciencenet.cn/u/jiangxun 本博将以数学杂文为主,科技杂文为辅,其它杂文为补。

博文

介绍一个多项选择考试的新评分办法 精选

已有 7489 次阅读 2017-5-11 08:04 |个人分类:谈数学|系统分类:教学心得

作者:蒋迅


2016年12月,陶哲轩发表了一篇博文“关于数学中的多项选择题”(On multiple choice questions in mathematics)。在这篇博文中,他指出,虽然在数学教学中,多项选择题一般具有明确的题意、容易做到自动批改,且不会引起争议,而且学生都已经对这种题型早就相当熟悉了,但是数学考试中的多项选择题还是有许多弊端。首先,多项选择题不允许有部分得分。对就是对,错就是错。有的学生可能方法正确,但计算有误,结果不得分;另有学生可能完全不会,而全靠瞎蒙,结果得了满分。其次,由於多项选择题的答案简洁,容易造成作弊。第三个问题是,有的学生可能只是为了得到一个在多项选中出现的答案而采用并不是很符合逻辑的方法。更为严重的后果是,多项选择题会给人一种印象,好像数学问题就应该这样去做。但实际上,数学家做研究时一般不会预先有四、五个选择,其中有且只有一个是正确的。还有,多项选择题容易引导学生养成采用快捷的解题方法,而不是仔细严谨地把题论述出来。多项选择题可能使得优秀学生的成绩低于一般学生。最重要的是,多项选择题会给人一种结果比过程重要的认识。陶哲轩又指出,多项选择题对於学生作为自我检查的一种方法还是行之有效的。他在文章中举了一些很说明问题的多项选择题。他认为,多项选择这种形式还会一直存在下去,同时还有许多值得研究和完善的地方。陶哲轩写博文都是像写论文一样仔细。笔者曾专门写文介绍他的博客(见《数学都知道》丛书第3册)。建议读者去读一下这篇文章。

对於多项选择考试的弊端,数学教育工作者早就有所意识。但由於各种条件的限制,他们暂时不得不采用这种传统方式。美国的AMC考试就一直是采用这种形式,但他们对做错的选择会给一点惩罚。

陶哲轩在以后的几年里,一直在努力改进多项选择题。2016年6月,他又在自己的博客里“异想天开”地提出,可以在二项选择题里给学生部分成绩。虽然他的思想早就存在,正如在读者评论里许多讨论所指出,但是他显然是自己独立形成的。由於这个思想很新颖,而且很有可能对高等数学中的多项选择题产生影响,我们在这里把陶哲轩的方法介绍一下。

假定我们 有N 个对-错选择题的考试,正确答案是随机分布的,不同题都是相互独立的。又假定学生必须回答每一个问题,而且在每道题上只能选择“对”或者“错”中的一个。给这样的老题评分比较简单:只要数一下学生答对了多少道题,比如说 k 道题。那么就可以给学生的成绩记为k。更一般地,我们可以给正确的选择以 X 分,给错误的选择以 Y 分(这里 Y 可能是负值),那么,学生的成绩就是 Xk + Y(Nk)。只要 X > Y,这个评分方法都会鼓励学生寻求尽可能多的正确选择。

通常,在考试时在做出自己的选择时并不是非常确定自己的选择。假定学生 S 对第 n 个问题的答案的确定的概率为,这里 0 ≤ pS,n ≤ 1。如果 pS,n 很接近1,我们可以认为 S 对这个问题所给的答案很有信心;相反如果 pS,n 很接近0,那么 S 对这个问题所给的答案其实很没有信心。还是假定 S 对这些问题的选择是互不关联的。{pS,n|n=1,...,N} 就是学生 S 的一个概率模型。在这样一个概率模型下,学生选择对和错的最佳办法就是:当 pS,n > 1/2 时就选择“对”;当 pS,n < 1/2 时则选择“错”;当 pS,n = 1/2 时,可以任意选择。

这样一个考试形式当然是可以的,但作为教师,我们从学生得到的信息只有他们答的对还是不对,而无法知道他们对自己的选择有多少信心。假如我们允许学生在回答对与错时,同时要求他们填上他们对自己的选择的信心程度的话,那么我们就可以对学生真实掌握知识的水平有更深入的了解。比如如果一位学生给的是“对”和“60%”的信心,而另一位学生同样给的是“对”但只有“40%”的信心,那么我们可以认为前一位学生比后一位在这个问题上的理解要好一些。

现在的问题是如何评分。我们略去陶哲轩的讨论,只是把他给出的公式写出来:


利用这个公式我们看到,如果对某一个n,其答案是“对”,并且学生S选了“对”且信心是 pS,n = 1,那么学生得1分。这个结果跟以前传统评分是一致的。但如果学生虽然选了“对”,但信心 pS,n = 0,那么他的得分是-∞。也就是说,学生错的很严重。一般来说,学生会回避这个结果,因为既然信心为0,那么就不应该做这样的选择。下面的表格是学生得分的部分情形:


陶哲轩指出,这个方法很容易推广到多项选择题。事实上已经有人在使用这个方法了。我们将稍后介绍。但是如果学生给出的信心程度是一个区间,则没有一个合适的公式。

陶哲轩的博文发表后引起了热烈反响。不少人提供了很多很有价值的信息。陶哲轩的这个思路其实类似于“恰当评分规则”(proper scoring rule),用对数评分是其中的一种。“恰当评分规则”是决策论中的一个领域。将这个领域引入数学考试命题是一个有意思的事情。有一个推广是,当考题中有些题目是相关联的时候,应该如何奖励那些发现这些关联性的学生。陶哲轩的这个方法在澳大利亚莫纳什大学的一个竞赛(Probabilistic Footy Tipping Competition)中已经使用。有意思的是陶哲轩本人也是澳大利亚人。他们想到一起了。这个竞赛不允许参加者填入100%和0%。这就排除了得-∞的可能性。对於可能的-∞,也可以采用分段定义的函数,比如当 0 ≤ p ≤ 0.01 时都取同一个常数得分。

谈到多项选择题的情形,在卡内基梅隆大学的“决策分析与决策支持系统”(Decision Analysis & Decision Support Systems)这门课中就已经使用了这个方法。这门考试之所以选择这种评分办法是跟这门课本身的性质有关的。我们来介绍一下这个方法

假定有一道题,其中有 (A), (B), (C) 和 (D) 四个选择,且其中只有一个是正确的。学生可能认为最有可能的答案是A,但B也很有可能是正确的,而C和D都不太可能是答案。那么他可能会这样分配他对每一个选择的信心度:

        (A)    0.50
        (B)    0.40
        (C)    0.05
        (D)    0.05

学生所得分数将依据下面的曲线决定:


    如果A是正确的答案,学生得分 = 1 + log4(0.50) = 0.5,
    如果B是正确的答案,学生得分 = 1 + log4(0.40) = 0.34,
    如果C或D是正确的答案,学生得分 =  1 + log4(0.05) = -1.16.

与莫纳什大学的竞赛一样,这个考试不允许学生选择100%和0%。在这样的考试中,学生随机选择答案可能会造成灾难性的结果。遇到不会的题目而且连筛除明显不可能的答案都做不到时,最好的办法就是老实承认自己不会,并对每一个选择都把信心度定为0.25。

除了向多项选择题的扩展外,我们也可以向答案不唯一的情况推广。前面我们说过,陶哲轩举了一些很说明问题的例子。让我们回过头来看看这样两个例子。

例1. 如果xy是实数,满足x2 = y,那么对於x所能说的最好的是:


在这个例子里,只有一个选择是正确的。但选择A显然比选择B,C和E更靠谱一些。评分时是不是应该有所区别?

例2. 下面哪些技巧可能是求不定积分∫x2log(1 + x)dx 的第一步?

    A. 做分部积分,对 x2 微分,对 log(1 + x) 积分。
    B. 做分部积分,对 x2 积分,对 log(1 + x) 微分。
    C. 做变量替换,令 y = x2.
    D. 做变量替换,令 y = 1 + x.
    E. 做变量替换,令 y = log(1 + x).
    F. 试著求导数,比如用函数 x3log(1 + x).
    G. 做 x2log(1 + x) 的图。
    H. 做 x2log(1 + x) 的泰勒级数展开。
    I. 启动Maple,Mathematica,或SAGE.

在这个例子里,很难说哪个选择是最好的。因此作为一道正式考题可能不太合适,但作为一个小测验题还是可以的。

总之,陶哲轩提出了一个很好的问题和一个很好的建议。这套方法值得讨论和试验,但在实际应用中还需谨慎。





https://wap.sciencenet.cn/blog-420554-1054261.html

上一篇:微博 (2017年5月9日)
下一篇:从香料贸易到载人航天
收藏 IP: 23.118.52.*| 热度|

14 周健 王安良 黄永义 李颖业 杨正瓴 李毅伟 姬扬 应行仁 王林平 陈冬生 张云 zoujinkexue11 biofans zjzhaokeqin

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 03:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部