基本信息
文件名称:基于词汇增强的中文命名实体识别研究.pdf
文件大小:5.18 MB
总页数:54 页
更新时间:2025-06-12
总字数:约8.46万字
文档摘要

基于词汇增强的中文命名实体识别研究

摘要

命名实体识别(NameEntityRecognition,NER)是自然语言处理(Natural

LanguageProcessing,NLP)的关键任务之一,其主要目标是识别和分类文本中

的命名实体。通过实体识别和分类,可以实现文本分类、信息提取、机器翻译、

舆论分析等多种应用。在NER中,常见的命名实体包括人名、地名、组织名和

日期等,它们具有丰富的语义信息。因中文命名实体识别起步较晚,语义相较

于英文更加丰富,这使得中文命名实体识别更有难度。目前,许多研究为了丰

富文本信息内容选择使用词汇增强,然而,词汇增强所添加的词汇信息大多为

相关信息,缺少无关信息干扰,这会导致模型学习不充分。此外,在特征提取

方面,双向长短记忆网络(BidirectionalLongShort-TermMemory,BILSTM)

是NER领域最常用的编码器之一,虽然其有不错的效果,但是在处理过长序列

时,梯度问题仍然可能发生,包括梯度爆炸和梯度消失,而且在只使用BILSTM

的情况下提取特征能力不够丰富。针对以上问题,本文提出了改进的办法。

为了解决词汇增强导致相关词汇过多且缺乏无信息干扰的问题,并提升模

型的鲁棒性和泛化性,本文提出了新的对抗训练方法MIFGM(Momentum

IterativeFastGradientMethod),该方法是在FGM(FastGradientMethod)对抗

的基础上,通过引入动量因子,在每次迭代时使用历史梯度的信息。该方法能

够生成更好的对抗样本用于训练。此外,为了最小化前后结果的差异,本章针

对MIFGM对抗方法设计了一种新的损失函数。经过在公共数据集上的验证,

实验结果表明该方法在命名实体识别方面效果优于其他模型。

针对BILSTM在处理过长序列时仍容易发生梯度爆炸或梯度消失,以及

BILSTM对于多层次语义信息的处理能力有限等问题。本文提出基于

TCN-BILSTM的中文命名实体识别的方法,该方法可以捕捉更长距离的依赖关

系,并丰富了输入BILSTM的信息,并在两个公共数据集上验证了模型的有效

性。为了进一步验证本文方法的有效性,本文将TCN-BILSTM的中文命名实体

识别方法与MIFGM对抗训练相结合,实验效果得到进一步提升。

关键词自然语言处理;命名实体识别;词汇增强;对抗训练

-I-

ResearchonChineseNamedEntityRecognition

BasedonLexicalEnhancement

Abstract

Namedentityrecognitioninnaturallanguageprocessingisacrucialtaskaimed

atidentifyingandcategorizingnamedentitieswithintextualdata.Throughentity

recognitionandclassification,variousapplicationssuchastextclassification,

informationextraction,machinetranslation,andpublicopinionanalysiscanbe

realized.Chinesenamedentityrecognitionstartedlate,andthesemanticismorerich

thanEnglish,