大语言模型推理能力榜：中文语境下“最强大脑”测评揭晓—— GPT-5 暂列第二，冠军究竟花落谁家？.docx

基本信息

文件名称：大语言模型推理能力榜：中文语境下“最强大脑”测评揭晓—— GPT-5 暂列第二，冠军究竟花落谁家？.docx

文件大小：890.39 KB

总页数：16 页

更新时间：2025-11-30

总字数：约5.53千字

文档摘要

大语言模型推理能力榜：中文语境下“最强大脑”测评揭晓——GPT-5暂列第二，冠军究竟花落谁家？

蒋镇辉1，鲁艺1，吴轶凡1，徐昊哲2，武正昱1，李佳欣1

1香港大学经管学院，2西安交通大学管理学院

【摘要】

随着大语言模型（LLM）技术的快速迭代，推理能力作为衡量模型智能水平的核心指标，已成为学术界与产业界的研究焦点。现有关于LLM推理能力的评测多聚焦于特定任务（如数学推理、逻辑能力），缺乏覆盖多维推理场景的系统框架，难以全面反映模型在实际应用中的推理效能。

为应对上述挑战，本研究构建了一套系统、客观、公正的人工智能模型推理能力评价体