基于多任务和裁判模型的医学领域大语言模型评测研究.pdf - 创享文库

基本信息

文件名称：基于多任务和裁判模型的医学领域大语言模型评测研究.pdf

文件大小：3.33 MB

总页数：75 页

更新时间：2026-03-03

总字数：约10.63万字

文档摘要

摘要

摘要

大语言模型评测是自然语言处理的一项重要任务，旨在探索模型的性能表现

与优化路径。在医疗领域，科学的评测结果不仅可以验证模型的可用性，也可为模

型迭代优化提供指导。然而，现有医学领域大语言模型评测场景比较单一，主要集

中于选择和开放问答，缺乏对真实场景的覆盖。尤其在开放问答中，常采用闭源的

ChatGPT-4作为裁判模型进行对比评测，但其缺乏医学领域的适配，评测过程黑箱

且价格高昂。为此，本文针对上述问题