基于词汇增强的中文命名实体识别研究.pdf

基本信息

文件名称：基于词汇增强的中文命名实体识别研究.pdf

文件大小：5.18 MB

总页数：54 页

更新时间：2025-06-12

总字数：约8.46万字

文档摘要

基于词汇增强的中文命名实体识别研究

摘要

命名实体识别（NameEntityRecognition，NER）是自然语言处理（Natural

LanguageProcessing，NLP）的关键任务之一，其主要目标是识别和分类文本中

的命名实体。通过实体识别和分类，可以实现文本分类、信息提取、机器翻译、

舆论分析等多种应用。在NER中，常见的命名实体包括人名、地名、组织名和

日期等，它们具有丰富的语义信息。因中文命名实体识别起步较晚，语义相较

于英文更加丰富，这使得中文命名实体识别更有难度。目前，许多研究为了丰

富文本信息内容选择使用词汇增强，然而，词汇增强所添加的词汇信息大多为

相关信息，缺少无关信息干扰，这会导致模型学习不充分。此外，在特征提取

方面，双向长短记忆网络（BidirectionalLongShort-TermMemory，BILSTM）

是NER领域最常用的编码器之一，虽然其有不错的效果，但是在处理过长序列

时，梯度问题仍然可能发生，包括梯度爆炸和梯度消失，而且在只使用BILSTM

的情况下提取特征能力不够丰富。针对以上问题，本文提出了改进的办法。

为了解决词汇增强导致相关词汇过多且缺乏无信息干扰的问题，并提升模

型的鲁棒性和泛化性，本文提出了新的对抗训练方法MIFGM（Momentum

IterativeFastGradientMethod），该方法是在FGM（FastGradientMethod）对抗

的基础上，通过引入动量因子，在每次迭代时使用历史梯度的信息。该方法能

够生成更好的对抗样本用于训练。此外，为了最小化前后结果的差异，本章针

对MIFGM对抗方法设计了一种新的损失函数。经过在公共数据集上的验证，

实验结果表明该方法在命名实体识别方面效果优于其他模型。

针对BILSTM在处理过长序列时仍容易发生梯度爆炸或梯度消失，以及

BILSTM对于多层次语义信息的处理能力有限等问题。本文提出基于

TCN-BILSTM的中文命名实体识别的方法，该方法可以捕捉更长距离的依赖关

系，并丰富了输入BILSTM的信息，并在两个公共数据集上验证了模型的有效

性。为了进一步验证本文方法的有效性，本文将TCN-BILSTM的中文命名实体

识别方法与MIFGM对抗训练相结合，实验效果得到进一步提升。

关键词自然语言处理；命名实体识别；词汇增强；对抗训练

-I-

ResearchonChineseNamedEntityRecognition

BasedonLexicalEnhancement

Abstract

Namedentityrecognitioninnaturallanguageprocessingisacrucialtaskaimed

atidentifyingandcategorizingnamedentitieswithintextualdata.Throughentity

recognitionandclassification,variousapplicationssuchastextclassification,

informationextraction,machinetranslation,andpublicopinionanalysiscanbe

realized.Chinesenamedentityrecognitionstartedlate,andthesemanticismorerich

thanEnglish,