摘要
摘要
随着人工智能和深度学习技术的发展,现已可以使用机器帮助医生进行基
于循证医学的诊疗。然而,目前对于医疗领域的机器辅助诊疗研究仍面临着诸
多问题:一是由于使用范围、涉及隐私等因素,真实医疗语料难以收集且需要
大规模专业性标注,标注成本高,而现有系统依赖于大量医疗数据的支撑,背
后的技术在少样本场景下可能不适用;二是现有系统属于黑盒模型,决策过程
不透明,然而可解释性对于医疗领域是非常重要的,需要让机器为其决策提供
出支撑证据;三是现有的证据抽取模型最终得出的决策和其提供的支撑证据之
间往往是相互矛盾的,二者之间没有建立起可靠的联系;四是随着大型语言模
型的发展,对中文医疗垂直领域的大模型能力探索仍较为缺乏。
基于上述问题,本文对医疗少样本场景下的证据抽取技术进行了相关分析
与研究。首先,本文提出了一个统一的两阶段证据抽取框架,进一步增强了模
型决策的效果和证据抽取的质量,并有效缓解了现有模型存在的决策和证据之
间联系不可靠的问题。同时,该框架将多类任务的数据格式进行了统一,从而
允许将多个任务集成到一个模型中,在几乎没有模型性能损失的情况下,大幅
度减少了对内存的消耗。在此基础上,面向医疗少样本场景,为了更充分地学
习有限的医疗数据,并且合理地利用大规模的无标注数据,设计了基于半监督
学习和基于中间任务加强的两种证据抽取策略,达到了更为有效且可靠的医学
证据抽取效果,具有较高的实际应用价值。除此之外,为了进一步增加高质量
的数据,使用大型语言模型基于最新的医学文献进行数据生成。通过构造融入
文献知识的高质量对话数据,缓解了样本量较少导致的模型学习不充分问题,
并且增强了模型决策所依赖证据的真实性和时效性。基于此提出的文献知识增
强模型Dandelion,是大模型在医疗垂直领域上的进一步探索,其能够进行更加
细粒度的医学分析,为患者和医疗人员提供更可靠的解决方案。
关键词:证据抽取;少样本学习;提示学习;半监督学习;大型语言模型
-I-
Abstract
Abstract
Withthedevelopmentofartificialintelligenceanddeeplearningtechnology,
machinescanalreadybeusedtoassistdoctorsindiagnosisandtreatmentbasedon
evidence-basedmedicine.However,thecurrentresearchonmachine-assisted
diagnosisandtreatmentinthemedicalfieldstillfacesmanyproblems.First,dueto
thescopeofuse,privacyandotherfactors,realmedicalcorpusisdifficulttocollect
andrequireslarge-scaleprofessionallabeling,whichiscostly.However,theexisting
systemreliesonthesupportofalargeamountofmedicaldata,andthetechnology
behinditmaynotbeapplicableinthefew-shotscenario.Second,theexistingsystem
isablack-boxmodel,andthedecision-makingprocessisopaque.However,explicit
interpretabilityiscrucialinthemedicalfield,asmachinesneedtoprovidesupporting