基于词汇增强的中文命名实体识别研究
摘要
命名实体识别(NameEntityRecognition,NER)是自然语言处理(Natural
LanguageProcessing,NLP)的关键任务之一,其主要目标是识别和分类文本中
的命名实体。通过实体识别和分类,可以实现文本分类、信息提取、机器翻译、
舆论分析等多种应用。在NER中,常见的命名实体包括人名、地名、组织名和
日期等,它们具有丰富的语义信息。因中文命名实体识别起步较晚,语义相较
于英文更加丰富,这使得中文命名实体识别更有难度。目前,许多研究为了丰
富文本信息内容选择使用词汇增强,然而,词汇增强所添加的词汇信息大多为
相关信息,缺少无关信息干扰,这会导致模型学习不充分。此外,在特征提取
方面,双向长短记忆网络(BidirectionalLongShort-TermMemory,BILSTM)
是NER领域最常用的编码器之一,虽然其有不错的效果,但是在处理过长序列
时,梯度问题仍然可能发生,包括梯度爆炸和梯度消失,而且在只使用BILSTM
的情况下提取特征能力不够丰富。针对以上问题,本文提出了改进的办法。
为了解决词汇增强导致相关词汇过多且缺乏无信息干扰的问题,并提升模
型的鲁棒性和泛化性,本文提出了新的对抗训练方法MIFGM(Momentum
IterativeFastGradientMethod),该方法是在FGM(FastGradientMethod)对抗
的基础上,通过引入动量因子,在每次迭代时使用历史梯度的信息。该方法能
够生成更好的对抗样本用于训练。此外,为了最小化前后结果的差异,本章针
对MIFGM对抗方法设计了一种新的损失函数。经过在公共数据集上的验证,
实验结果表明该方法在命名实体识别方面效果优于其他模型。
针对BILSTM在处理过长序列时仍容易发生梯度爆炸或梯度消失,以及
BILSTM对于多层次语义信息的处理能力有限等问题。本文提出基于
TCN-BILSTM的中文命名实体识别的方法,该方法可以捕捉更长距离的依赖关
系,并丰富了输入BILSTM的信息,并在两个公共数据集上验证了模型的有效
性。为了进一步验证本文方法的有效性,本文将TCN-BILSTM的中文命名实体
识别方法与MIFGM对抗训练相结合,实验效果得到进一步提升。
关键词自然语言处理;命名实体识别;词汇增强;对抗训练
-I-
ResearchonChineseNamedEntityRecognition
BasedonLexicalEnhancement
Abstract
Namedentityrecognitioninnaturallanguageprocessingisacrucialtaskaimed
atidentifyingandcategorizingnamedentitieswithintextualdata.Throughentity
recognitionandclassification,variousapplicationssuchastextclassification,
informationextraction,machinetranslation,andpublicopinionanalysiscanbe
realized.Chinesenamedentityrecognitionstartedlate,andthesemanticismorerich
thanEnglish,