少样本命名实体识别与关系抽取方法研究.pdf

基本信息

文件名称：少样本命名实体识别与关系抽取方法研究.pdf

文件大小：2.94 MB

总页数：49 页

更新时间：2025-03-19

总字数：约6.93万字

文档摘要

摘要

命名实体识别和关系抽取是信息抽取中的重要子任务，旨在从非结构化文本中

获取结构化数据。由于大量应用场景缺乏标注数据，因此在该类场景下进行命名实体

识别和关系抽取成为了具有挑战性的任务。标注数据中的标签信息和外部知识库中

的语义信息对少样本命名实体识别和关系抽取具有重要作用。因此，本文重点研究将

内外部知识融入少样本命名实体识别和关系抽取模型的方法，主要工作及成果如下：

（1）针对少样本命名实体识别任务中标签数据利用不充分的问题，本文提出了

一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种基于原型网

络的两阶段命名实体识别方法。在构建实体类型原型向量时，将对应实体类型所包含

的语义信息通过维度转换层与原型向量相融合。在对新样本进行实体识别时，将实体

类型的正负样本与实体类型原型向量组成实体类型三元组，依据样本到三元组的距

离进行分类。在多个数据集上的实验证明，该方法相较于以往的研究有了较大提升，

验证了其在实践中的有效性。

（2）针对少样本关系抽取任务中知识融入不足的问题，本文提出了一种融合结

构化知识的少样本关系抽取方法。该方法采用提示学习思想，使用外部知识库构建了

语义更丰富的关系提示模板。在模型预训练和微调阶段，获取该模板对应的语义表

示，并基于Dropout思想采用随机丢弃策略。实验结果表明，该方法减少了模型过拟

合现象，增强了模型的泛化能力，证明了该方法的有效性。

（3）针对大量领域数据稀缺问题，实现了专名标引系统。该系统在少样本情形

下识别命名实体，抽取实体对之间的关系，同时集成了中文分词、词性标注等模块，

并添加了模型微调等相关接口，从而实现了专名标引功能。

本文的主要贡献包括：（1）提出了一种基于标签语义信息感知的少样本命名实

体识别方法，解决了少样本命名实体识别任务中标签数据利用不充分的问题；（2）

提出了一种融合结构化知识的少样本关系抽取方法，增强了模型在少样本情形下的

泛化能力，减少了过拟合现象；（3）基于上述少样本命名实体识别和关系抽取模型，

集成了模型接口及专名标引相关模块，实现了专名标引系统。

关键词：少样本；命名实体识别；关系抽取

ABSTRACT

Namedentityrecognitionandrelationextractionareimportantsubtasksininformation

extraction,aimingtoobtainstructureddatafromunstructuredtext.Sincealargenumberof

applicationscenarioslackannotateddata,namedentityrecognitionandrelationextraction

havebecomechallengingtasksinsuchscenarios.Labelinformationinannotateddataand

semanticinformationinexternalknowledgebasesplayanimportantroleinfew-shotnamed

entityrecognitionandrelationextraction.Therefore,thisthesisfocusesonresearchon

methodsforintegratinginternalandexternalknowledgeintofew-shotnamedentity

recognitionandrelationextractionmodels.Themainworkandresultsareasfollows:

(1)Aimingattheproblemofinsufficientutilizationoflabeldatainthefew-shotnamed

entityrecognitiontask,thisthesisp