基本信息
文件名称:基于多任务和裁判模型的医学领域大语言模型评测研究.pdf
文件大小:3.33 MB
总页数:75 页
更新时间:2026-03-03
总字数:约10.63万字
文档摘要

摘要

摘要

大语言模型评测是自然语言处理的一项重要任务,旨在探索模型的性能表现

与优化路径。在医疗领域,科学的评测结果不仅可以验证模型的可用性,也可为模

型迭代优化提供指导。然而,现有医学领域大语言模型评测场景比较单一,主要集

中于选择和开放问答,缺乏对真实场景的覆盖。尤其在开放问答中,常采用闭源的

ChatGPT-4作为裁判模型进行对比评测,但其缺乏医学领域的适配,评测过程黑箱

且价格高昂。为此,本文针对上述问题