摘要
命名实体识别和关系抽取是信息抽取中的重要子任务,旨在从非结构化文本中
获取结构化数据。由于大量应用场景缺乏标注数据,因此在该类场景下进行命名实体
识别和关系抽取成为了具有挑战性的任务。标注数据中的标签信息和外部知识库中
的语义信息对少样本命名实体识别和关系抽取具有重要作用。因此,本文重点研究将
内外部知识融入少样本命名实体识别和关系抽取模型的方法,主要工作及成果如下:
(1)针对少样本命名实体识别任务中标签数据利用不充分的问题,本文提出了
一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种基于原型网
络的两阶段命名实体识别方法。在构建实体类型原型向量时,将对应实体类型所包含
的语义信息通过维度转换层与原型向量相融合。在对新样本进行实体识别时,将实体
类型的正负样本与实体类型原型向量组成实体类型三元组,依据样本到三元组的距
离进行分类。在多个数据集上的实验证明,该方法相较于以往的研究有了较大提升,
验证了其在实践中的有效性。
(2)针对少样本关系抽取任务中知识融入不足的问题,本文提出了一种融合结
构化知识的少样本关系抽取方法。该方法采用提示学习思想,使用外部知识库构建了
语义更丰富的关系提示模板。在模型预训练和微调阶段,获取该模板对应的语义表
示,并基于Dropout思想采用随机丢弃策略。实验结果表明,该方法减少了模型过拟
合现象,增强了模型的泛化能力,证明了该方法的有效性。
(3)针对大量领域数据稀缺问题,实现了专名标引系统。该系统在少样本情形
下识别命名实体,抽取实体对之间的关系,同时集成了中文分词、词性标注等模块,
并添加了模型微调等相关接口,从而实现了专名标引功能。
本文的主要贡献包括:(1)提出了一种基于标签语义信息感知的少样本命名实
体识别方法,解决了少样本命名实体识别任务中标签数据利用不充分的问题;(2)
提出了一种融合结构化知识的少样本关系抽取方法,增强了模型在少样本情形下的
泛化能力,减少了过拟合现象;(3)基于上述少样本命名实体识别和关系抽取模型,
集成了模型接口及专名标引相关模块,实现了专名标引系统。
关键词:少样本;命名实体识别;关系抽取
I
ABSTRACT
Namedentityrecognitionandrelationextractionareimportantsubtasksininformation
extraction,aimingtoobtainstructureddatafromunstructuredtext.Sincealargenumberof
applicationscenarioslackannotateddata,namedentityrecognitionandrelationextraction
havebecomechallengingtasksinsuchscenarios.Labelinformationinannotateddataand
semanticinformationinexternalknowledgebasesplayanimportantroleinfew-shotnamed
entityrecognitionandrelationextraction.Therefore,thisthesisfocusesonresearchon
methodsforintegratinginternalandexternalknowledgeintofew-shotnamedentity
recognitionandrelationextractionmodels.Themainworkandresultsareasfollows:
(1)Aimingattheproblemofinsufficientutilizationoflabeldatainthefew-shotnamed
entityrecognitiontask,thisthesisp