MicrosoftCopilot对地理应试评价潜力的实证分析
摘要:近年,MicrosoftCopilot类生成式人工智能引发社会各界的广泛讨论。本文基于中学地理教育视角,评估了Copilot在2022—2024年6次浙江省地理选考试卷中的表现。结果表明,尽管Copilot以55.9%的平均得分率超过失分率(44.1%),具备基本的地理素养及较好的交互性与生成性,但可靠性与稳定性较弱,尤其在自然地理学与部分图像解析方面局限性较大;Copilot在对地理的理解与响应生成方面,有潜在的改进空间。通过实证分析,MicrosoftCopilot具有赋能地理教育和成为师生新型学习工具的潜力,但必须审慎、批判性地使用,不应将其作为地理问题答案的可靠提供者。师生需主动提升人工智能素养,拥抱智能技术,顺应未来地理教育的变革浪潮。
关键词:MicrosoftCopilot;人工智能;中学地理教育
近年来,语言模型在理解和生成跨领域的类人文本方面取得了显著进展,并引发各领域的广泛讨论[1-2]。众多教育工作者对AI于教育界的可能影响进行了大量有益探索[3-4],其中部分地理学者对人工智能时代背景下中学地理教学面临的机遇、挑战及如何应对等也进行了相关理论阐述[5-8]。但在评估AI处理标准化考试材料领域,尤其是其理解题目材料信息和生成答案的准确性方面,研究仍相对局限,不利于挖掘和拓展其作为地理教育工具的可能性。MicrosoftCopilot为微软推出的高级语言模型,是由OpenAI公司提供支持并使用ChatGPT4.0版本的搜索引擎。与需要较高费用的原生ChatGPT4.0相比,Copilot免费版也可处理图表、文档等复杂材料。地理选考是评估学生对地理原理的掌握程度及其在现实生活中应用能力的“试金石”。本文通过评估Copilot在浙江省地理选考中的表现,了解该模型在理解多元地理概念与帮助学生学习方面的能力,及其在中文语境下的适用性与AI赋能地理教育的实际应用潜力,为师生更加高效地使用AI辅助地理教与学提供参考。
一、研究方法
浙江省高考地理标准化试卷来源于公开可用的资料,包括2022年1月、2022年6月、2023年1月、2023年6月、2024年1月、2024年6月(以下简称2022.1、2022.6、2023.1、2023.6、2024.1、2024.6)的6次普通高校招生入学考试,主要题型为选择题和简答题。其中,2022.1~2023.6前20项选择题单个分值为2分,后5项为3分,满分55分;2024.1和2024.6的25项选择题单个分值均为2分,满分50分。此数据集因其为高考试题而具有内容丰富、要求严格、科学性高等特点,并涵盖自然地理学、人文地理学及地理信息技术等多元的地理主题。MicrosoftCopilot是有效评估具有较多图表地理试题的合适工具。图1为本文数据处理过程,从数据集测试到使用origin等绘图软件对Copilot测试结果进行可视化表达。
为确保评估的客观性和统计便利性与精准性,本文全部采用选择题,降低评价简答题答案时的主观因素,并将试题按年份、地理主题2个维度进行分析。通过搜索网络资源和咨询资深教师确定试题答案,将Copilot的回答分为3个独立类别:正确、错误以及未给出有效回答(多选或未选)。然后将其响应结果与标准答案进行比对以评估Copilot在理解材料图文信息和提供正确答案方面的有效性。
二、MicrosoftCopilot评估结果
1.Copilot作答总体表现
MicrosoftCopilot作答结果的年际分布表明(表1、图2、图3a),其在近6次的平均得分率(55.9%)高于失分率(44.1%),但不同年份表现出显著差异性。其中,2024.1准确率40%(10/25)显著低于其他年份,错误率56%(14/25)占比最大,未答率为4%(1/25);2023.6表现最为优异,准确率达68%(17/25),没有未答情况,准确度和完成度均最好;2023.1和2024.6正确率均为60%(15/25),仅次于2023.6;2022.1与2022.6表现均较为平庸:准确率分别为48%(12/25)、56%(14/25),错误率分别为52%(13/25)、44%(11/25),未答率均为0。上述结果表明,尽管Copilot问题参与度高,基本可回答所有问题,但提供答案的准确性有限。由于地理学科的特殊性,图表是题目的重要载体与表现方式,图表类题目占历年试题80%以上篇幅。因此,从作答完成度来看,Copilot基本可对图表内容进行读取和分析。
2.Copilot作答与实际考生对比结果
为确定Copilot在实际考试情境中的表现,本文以2024.1选考试题为例,随机抽取并统计了两所学校共67名考生的选择