基于多特征融合的实体关系联合抽取方法研究
摘要
随着互联网的迅猛发展,用户数量逐渐呈现爆炸式增长,数据量亦指数级扩张,
如何处理海量的数据从中得到具有重要价值的信息成为热点问题。实体关系抽取应运
而生,其旨在从非结构化或者半结构化文本中抽取实体及实体对间的关系,转化为三
元组形式的结构化信息,为知识图谱构建、问答系统等下游智能化应用提供有力的数
据支持。
针对目前的实体关系抽取模型对实体层次特征利用不够全面影响模型抽取效果的
问题,本文提出了基于实体类型的多特征实体关系联合抽取模型MF_Joint。对于关系
抽取来说,文本中的实体特征信息尤为重要,实体类型特征能够增强实体信息对关系
抽取的约束力,有助于实体间关系的正确预测。MF_Joint模型将头实体特征向量输入
到神经网络中计算当前头实体属于每种类型的概率,对概率值求和得到头实体类型特
征向量,与文本特征向量和头实体特征向量融合输入到关系抽取子模型中输出完整的
三元组。本文在两个公开数据集NYT和WebNLG上对MF_Joint模型进行三元组预测,
实验结果表明MF_Joint模型与基线模型相比表现更佳,但在复杂文本场景中提升效果
受限。
为了提高模型在复杂文本中的表现效果,本文从层归一化和注意力机制的角度探
索模型的特征融合方法,提出了基于CLN的实体关系联合抽取模型MF_Joint+CLN和
基于注意力机制的实体关系联合抽取模型MF_Joint+AFF。本文首先介绍基于CLN的
特征融合,将实体层面的特征作为条件与文本特征融合,在模型训练过程中自适应调
整待融合特征的比重。其次,提出了基于注意力机制的特征融合方法AFF,结合全局
信息和局部信息获得注意力值对待融合特征做注意力计算。上述两种方式使模型在关
系抽取时重点关注与当前处理头实体相关的文本信息,有利于三元组的正确抽取。本
文将MF_Joint+CLN模型和MF_Joint+AFF模型在NYT数据集和WebNLG数据集上进
行三元组预测,实验结果表明MF_Joint+CLN模型和MF_Joint+AFF模型能够有效提高
模型的特征表达能力,增强模型中实体识别子模型和关系抽取子模型之间的交互性,
有助于模型性能进一步的提升。其中,MF_Joint+AFF模型表现更好,尤其是在数据更
复杂的NYT数据集上提升效果更明显。
关键词:实体识别;关系抽取;实体类型;层归一化;注意力机制
基于多特征融合的实体关系联合抽取方法研究
Abstract
WiththerapiddevelopmentoftheInternet,thenumberofusershasgraduallyshown
explosivegrowth,thevolumeofdataisexponentiallyexpanding,howtodealwithmassive
dataandobtainvaluableinformationfromithasbecomeahotissue.Entityrelationextraction
cameintobeing,whichaimstoextractentitiesandtherelationbetweenentitypairsfrom
unstructuredorsemi-structuredtext,andtransformthemintostructuredinformationinthe
formoftriple,soastoprovidestrongdatasupportfordownstreamintelligentapplications
suchasknowledgegraphconstructionandquestionansweringsystems.
Aiming