如果我们用昨天的方法,教今天的学生,我们就剥夺了他们的明天。
疑惑
作为教学评价的必要手段,老师们经常需要布置作业或课程结课论文。然而,如今不少学生开始借助人工智能(AI)来完成这些任务,这让老师们颇为头疼。
我有个朋友前两天就遇到了这个问题。
他教的课程一直要求学生在期末提交一份与课程相关的案例报告。以前他批改作业时,感觉挺轻松愉快,因为一眼就能看出学生写得是否认真。但今年他发现,有些作业写得特别好,好到让他怀疑是不是用 AI 写的。
这就让他很为难:如果这些作业真的是 AI 写的,那给他们高分,对那些自己认真写(但是质量稍微低一些)的同学是否不公平?但如果直接因为文笔流畅就判断说学生「你这是 AI 写的」,直接给低分,似乎也不太合适。
于是,他问我一个很实际的问题:有没有工具能准确检测出 AI 写的东西?如果有,那评判时就有依据了。
检测AI 查重工具当然是有的。早在两年前 ChatGPT 刚出来时,OpenAI 就推出了一款官方的 AI 检测工具。但有趣的是,2023 年还没过完,他们就把这个工具下线了。
至于原因,很简单:这种工具无法做到百分之百准确,可用性非常有限。
如果你了解 AI ,或许会感到困惑——无论是情感分析还是图片分类任务,AI 大都无法做到 100% ,为什么这些任务上 AI 就被当成有用,但 AI 检测任务就定如此苛刻的标准?
这是因为,AI 检测任务哪怕错一次,都会带来严重后果 —— 如果一个学生非常认真地写了一篇近乎完美的作业,结果被 AI 检测工具判定为「疑似 AI 写作」,那可就糟糕了。这不仅对学生不公平,还会传递一个错误的信号:写得越好越容易被冤枉为「滥用 AI」。
这样一来,学生可能会为了避免被误判而故意主动降低写作质量,以保障 AI 检测率在阈值下方。这显然不是我们教学活动想要的结果。
另一方面,AI 检测的原理究竟是什么?我们鼓励学生在写作业、学期论文甚至毕业论文时,展现出原创思维和深刻思考。这才是我们最看重的。然而,AI检测工具的原理并不是检测原创性,而是通过某些特征来判断最终的结果文本是否由AI生成。这与我们之前使用的查重系统完全不同。
传统查重主要检测文本与已知成果之间的重合度,即是否存在大量与他人已经产出结果相似的内容,即使你换了说法也能被发现。而AI查重则是基于概率分布的检测方式。
生成式 AI 的工作原理是:根据前一个词预测下一个词,逐步生成完整内容。AI 查重就是检测这种生成模式 —— 如果每个词后面出现的词都是高概率的,就判定为 AI 生成。
这种检测方式存在两个主要问题:
首先是舍本逐末。假设你辛苦收集数据、提出原创分析方法,只是用AI润色文字以消除技术性错误,这本来是被学术界认可的。但AI查重会认为这是AI生成,可能给出90%以上的AI使用率,导致不公正的惩罚。
其次是误判问题。有些人写作水平高,写出的文章自然流畅,也可能被误判为AI生成。这种误判在学术评价中会造成严重后果。
所以目前的AI检测工具只能作为参考,绝不能作为评判依据。某名校的规定也提到,只有当检测结果达到一定阈值时,会给学生警示要求修改,而不是直接判定为抄袭或作弊。再强调一遍,AI 检测任务上,误判的后果可能比漏判更严重。
保守前几天我作为教学督导和学院的青年教师座谈。讨论学生使用 AI 写作业的问题时,一位年轻老师提到,他的做法是让学生手写作业练习,不允许参考任何资料。这种方法类似于传统的闭卷考试。对于记忆性或理论性较强的课程,这种做法或许还说得过去。但问题在于,如果课程本身是动手实践、上机编程的综合实验课,最后却让学生坐在那里填空、选择、手写大题,这种做法就显得有些奇怪了。可他要教的,恰恰是一门综合实践类课程。
在《预测之书》中,沈祖芸老师引用了教育家杜威在 100 年前说的一句话:
如果我们用昨天的方法,教今天的学生,我们就剥夺了他们的明天。
我最近才看到这句话,并且深以为然。在那次讨论会上,我向这位年轻老师表达了类似的观点。
我说,我们教育的目的是让学生成为更好的自己,而不是让教学变得轻松。学生们毕业后,未来的工作环境中,与AI协作可预见是必然的。我们教的课程与编程和系统开发密切相关,学生将来与AI协作的能力可以算作是「吃饭的技能」。如果我们现在告诉他们学习、练习不能使用AI,那么他们所学的内容与未来的工作之间就会存在巨大的鸿沟。
对编程任务来说,GitHub Copilot, Cursor 和 Winsurf 这样的工具已经取代了记忆和查找 API,手工编代码的过程。这些工具在推理能力上还有争议,但「编程不再需要记忆那些 API 和开发文档」却已经是业界共识。如果我们今天还让学生背诵、手动默写这些内容,默写得准确就能得高分,这对他们将来的工作和能力培养又有什么帮助呢?
这番话让那位年轻老师陷入了沉思。
对轰当然,教学实践中也早有人尝试了更激进的做法。去年 12 月在珠海的数据智能会议上,有老师提到了「魔法对轰」的现象 —— 学生用 AI 写程序并直接提交,助教则用 AI 来检测和评分。
结果有一次,学生发现自己的程序明明是对的,却被 AI 判错了,跑到老师这边申诉。助教检查后发现,确实是 AI 当时「犯傻」了。
这种情况让人哭笑不得,双方谁都没有对教学活动真正负责 —— 学生不自己写,助教不自己判,两个 AI 在那里「沟通」。这到底有什么意义呢?
思路
在面对学生作业提交的问题时,我们需要采取新的策略。传统的只让学生提交论文或报告文稿的方式已经不再适用。
过去,提交的文稿质量体现着学生尽力完成任务时的能力水平。但现在情况完全不同。学生可能完全依赖 AI 生成海量内容,看似有板有眼,但没有进行任何深入思考或学习。
为了应对这种情况,我建议采取以下措施:
首先,在学生提交作业后,必须进行现场答辩。从2023年开始,我每个学期期末都会这样做。学生需要解释他们的工作内容、选题意义、选择的具体方法或技术路线的原因,并回答老师(也就是我本人)和同学们(如有,一般没有)当场提出的问题。
当然了,千万不要把这件事弄成走过场。仅仅让学生讲述是不够的,因为他们的讲稿也可能由 AI 生成。只有通过提出关键问题,并且查看学生的回答反应,我们才可以判断学生是否真正投入了工作,进行了深入的思考。
其次,我们不但不能完全屏蔽 AI ,甚至还应该要求学生必须使用AI来辅助完成作业。以今天很多大模型近乎免费、甚至已经免费的价格,这不会给学生造成多大的额外经济压力。这话其实多余,因为如果学生们真的用不起 AI ,咱们也没有必要探讨今天的主题了,不是吗?
让学生使用 AI 辅助完成作业和练习的目的,是确保学生在这个过程中与 AI 协作,并且注重发挥自己(人)的作用。AI可以提供一个初步结果,但学生需要对其进行理解、消化和判断,找出问题并提出改进方向。通过这种方式,学生需要与AI进行多次交互。
提交的时候也不能只是呈现最终结果,而要完整展示他们如何从 AI 回答的初始版本,反馈迭代,推进到更完善的版本。这个结果应该体现学生的专业品味和判断力,展示他们认为合适的质量水平究竟如何。通过这种方式,我们可以更好地评估学生对专业知识和技能的理解深度。
这种方法不仅能督促和帮助学生真正动脑筋,还能让我们更好地识别他们在工作中实质的参与程度。与其单纯依赖检测工具,不如采用这种引导性的方式。「堵」不如「疏」嘛。
行文至此,我知道你早已按捺不住了。别着急,我知道你想问什么。
负担这里有一个重要的问题需要讨论,那就是工作量。想象一下,原本只需要学生提交一份作业,现在却要求他们展示多个版本的迭代过程。这意味着老师需要审阅的内容至少是原来的3到6倍。此外,老师还需要与每位学生进行个性化问答,针对每个问题提出关键性的反馈和评价。这样的工作量对于老师来说无疑是巨大的,尤其是如果一学期要教授多门课程,老师可能会感到不堪重负。
那么,如何解决这个问题呢?
「解铃还须系铃人」,我们可以利用 AI 技术来减轻老师的负担。
首先,AI 可以帮助老师处理学生提交的不同版本作业。其次,AI 可以记录学生的回答过程,无论是通过录音还是录像,这些记录都可以被转换成文本,便于后续的评审和分析。例如,过去两年中,我在本科课程中就要求助教全程录像,这不仅作为评分依据,也便于解决可能的争议。以后,我会更加深度挖掘这些资料。
当然,有人可能会质疑,这是否又回到了「魔法对轰」的低层次使用 AI 的方式。
不。
问题的关键在于我们如何使用 AI。如果只是简单地让 AI 评判作业的对错或打分,那确实是不够的。我们需要的是让 AI 辅助老师进行更深入的评估和反馈,而不是完全替代老师的角色。
教学评价是教师的一项重要职责,当然不能完全外包出去。我们可以借助 AI 来辅助分析,比如让 AI 比较不同版本之间的差异,找出质量提升的具体体现,并识别出一系列关键问题。这些 AI 分析出的问题,可以作为教师向学生当场提问时的参考(因为完整的报告是在展示之前就已经提交的),帮助教师更好地了解学生的理解深度。
接下来,教师可以根据自己的专业和具体课程要求,设计一个结构化的提示词,让 AI 从学生的回答中提炼出关键点,并生成一份清晰的报告。通过审视这个报告,教师可以判断学生的回答是否切中要点。让 AI 以标准化的方式呈现文本中的关键点,可以帮助教师更好地对回答质量进行判断。
这里的关键是,不要依赖 AI 来评判学生的对错或打分,因为 AI 的评分可能完全不靠谱。但是 AI 把信息从一种形式(学生现场口语化的回答),转换成另一种形式(梳理逻辑之后的全部评分关键点),那就靠谱多了。
不过,AI 的表现除了跟提示词质量相关,还取决于所使用的模型。如果模型不够先进,AI 的提炼结果可能会不尽如人意。
模型我写作本文时,世界上能力最强的公开发布大语言模型,是 OpenAI o1 pro。但价格较高,每月需要 200 美元。好在,你未必非得为了教学活动额外付出这么高的订阅费,因为也有一些性价比高的替代方案。
比如 Google 的 Gemini 2.0 Flash Thinking 模型就很好。这个模型不仅具备较强的推理能力,还能很好地遵循指令,在处理长文本时表现出色。最重要的是,它目前是免费的,通过第三方中转服务使用也非常便宜。
此外,国内也有一些类似的模型技术在快速发展中,比如深度求索(Deepseek)公司正在开发的反思式模型。我最近看到一个关于它能力的榜单,但一直没机会测试它的 API。
好在 Deepseek 官网上确实有个选项,可以进行「深度思考」。
你可以试试,然后把自己的感受在留言区跟大伙儿分享一下。
小结小结一下,本文从「学生用 AI 代替自己写作业」这个愈发普遍的问题切入进行了探讨。我觉得以下要点你可以参考。
首先,我们不能忽视 AI 的存在。有必要让学生在学习过程中融入与 AI 的协作,这对他们未来的职场竞争力会有帮助。
其次,不要图省事。无论是「魔法对轰」还是简单粗暴地滥用 AI 检测结果,都是不负责任的做法。尤其是后者,一旦出现问题,负面效果显著。
第三,传统的仅提交文本作为评判依据的方式在今天已不再适用。我们应该鼓励学生使用 AI,但要求他们完整呈现协作过程,并通过提问来评估他们的参与度和思考质量。
作为老师,这些新技术确实增加了我们的工作负担和难度。但这是我们这个时代的机遇和挑战,面对它们比逃避要好得多。
祝老师和同学们 AI 辅助技能精进之路顺利!
如果你觉得本文有用,请点击文章底部的「推荐到博客首页」按钮。
如果本文可能对你的朋友有帮助,请转发给他们。
欢迎关注我的专栏,以便及时收到后续的更新内容。
延伸阅读转载本文请联系原作者获取授权,同时请注明本文来自王树义科学网博客。
链接地址:https://wap.sciencenet.cn/blog-377709-1469614.html?mobile=1
收藏
分享