基本信息
文件名称:少样本命名实体识别与关系抽取方法研究.pdf
文件大小:2.94 MB
总页数:49 页
更新时间:2025-03-19
总字数:约6.93万字
文档摘要

摘要

命名实体识别和关系抽取是信息抽取中的重要子任务,旨在从非结构化文本中

获取结构化数据。由于大量应用场景缺乏标注数据,因此在该类场景下进行命名实体

识别和关系抽取成为了具有挑战性的任务。标注数据中的标签信息和外部知识库中

的语义信息对少样本命名实体识别和关系抽取具有重要作用。因此,本文重点研究将

内外部知识融入少样本命名实体识别和关系抽取模型的方法,主要工作及成果如下:

(1)针对少样本命名实体识别任务中标签数据利用不充分的问题,本文提出了

一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种基于原型网

络的两阶段命名实体识别方法。在构建实体类型原型向量时,将对应实体类型所包含

的语义信息通过维度转换层与原型向量相融合。在对新样本进行实体识别时,将实体

类型的正负样本与实体类型原型向量组成实体类型三元组,依据样本到三元组的距

离进行分类。在多个数据集上的实验证明,该方法相较于以往的研究有了较大提升,

验证了其在实践中的有效性。

(2)针对少样本关系抽取任务中知识融入不足的问题,本文提出了一种融合结

构化知识的少样本关系抽取方法。该方法采用提示学习思想,使用外部知识库构建了

语义更丰富的关系提示模板。在模型预训练和微调阶段,获取该模板对应的语义表

示,并基于Dropout思想采用随机丢弃策略。实验结果表明,该方法减少了模型过拟

合现象,增强了模型的泛化能力,证明了该方法的有效性。

(3)针对大量领域数据稀缺问题,实现了专名标引系统。该系统在少样本情形

下识别命名实体,抽取实体对之间的关系,同时集成了中文分词、词性标注等模块,

并添加了模型微调等相关接口,从而实现了专名标引功能。

本文的主要贡献包括:(1)提出了一种基于标签语义信息感知的少样本命名实

体识别方法,解决了少样本命名实体识别任务中标签数据利用不充分的问题;(2)

提出了一种融合结构化知识的少样本关系抽取方法,增强了模型在少样本情形下的

泛化能力,减少了过拟合现象;(3)基于上述少样本命名实体识别和关系抽取模型,

集成了模型接口及专名标引相关模块,实现了专名标引系统。

关键词:少样本;命名实体识别;关系抽取

I

ABSTRACT

Namedentityrecognitionandrelationextractionareimportantsubtasksininformation

extraction,aimingtoobtainstructureddatafromunstructuredtext.Sincealargenumberof

applicationscenarioslackannotateddata,namedentityrecognitionandrelationextraction

havebecomechallengingtasksinsuchscenarios.Labelinformationinannotateddataand

semanticinformationinexternalknowledgebasesplayanimportantroleinfew-shotnamed

entityrecognitionandrelationextraction.Therefore,thisthesisfocusesonresearchon

methodsforintegratinginternalandexternalknowledgeintofew-shotnamedentity

recognitionandrelationextractionmodels.Themainworkandresultsareasfollows:

(1)Aimingattheproblemofinsufficientutilizationoflabeldatainthefew-shotnamed

entityrecognitiontask,thisthesisp