维基词典辅助的嵌套命名实体识别方法研究.pdf

基本信息

文件名称：维基词典辅助的嵌套命名实体识别方法研究.pdf

文件大小：4.64 MB

总页数：65 页

更新时间：2025-05-28

总字数：约10.37万字

文档摘要

维基词典辅助的嵌套命名实体识别方法研究

摘要

嵌套命名实体识别在自然语言处理中扮演着重要的角色，其意义在于能够更加准确

地提取文本中的实体信息。相较于传统的命名实体识别，嵌套命名实体识别能够识别出

嵌套于其他实体内部的实体，更加全面地反映文本中的实体信息。准确的嵌套命名实体

识别能够为其他自然语言处理任务提供更加准确和丰富的语义信息，从而提高这些任务

的准确度和效率。因此，嵌套命名实体识别是自然语言处理领域的重要研究方向，对于

促进自然语言处理技术的发展和应用具有重要的意义。当前的嵌套命名实体识别方法通

常使用基于字符或词汇级别的浅层特征，这种方法无法充分利用词汇信息，而且仅侧重

于内部上下文信息的利用，忽略了外部信息的使用。此外，现有研究主要关注英文数据

集，对中文嵌套命名实体的研究相对较少。为了提高嵌套命名实体识别的准确性，本文

针对英文领域，提出了基于维基搜索引擎的嵌套命名实体识别方法，引入外部知识来获

取更丰富的语义信息。针对中文语言的特点，提出了中文嵌套命名实体识别模型，对维

基搜索引擎方法进一步改进，避免了特定长度枚举的限制。具体而言，本文研究工作主

要分为以下两部分：

（1）针对英文嵌套命名实体识别问题，提出了基于维基搜索引擎的嵌套命名实体

识别模型。该模型主体部分采用基于跨度的两阶段嵌套命名实体识别方法，结合跨度边

界回归和片段分类联合任务解决方案，先定位实体位置及类别，再进行跨度过滤和边界

调整。在主体模型基础上融合本地维基搜索引擎辅助方法，通过从本地维基搜索引擎中

检索跨度的上下文来增强原始输入跨度，有效地捕获更好的token表示，采用

BERT-CRF来得到标签和置信度分数，以辅助过滤器更好地执行二分类任务，提高识别

准确度。在ACE2004、ACE2005、KBP17和GENIA四个通用的英文嵌套命名实体识

别数据集上全面评估模型有效性，包括与基线模型进行的对比实验和消融实验。对比实

验结果表明，相较于基线模型，本文提出的模型在嵌套命名实体的识别准确性方面有了

明显的提升。消融实验结果表明，本文方法中的各个组件均对模型性能有着不同程度的

贡献。

（）针对中文领域，提出了维基词典辅助的嵌套命名实体识别模型。该模型通过

使用维基词典获得匹配词组来构成字符-词组对，并将其集成到BERT中间层，充分利

用BERT表示能力。中文词组所包含的语义信息比单个字符更丰富，引入词典信息增

哈尔滨工程大学硕士学位论文

强特征，获取更丰富的语义。使用双仿射结构，获取跨度的全局视图，避免了特定长度

枚举的限制。同时，利用相邻跨度之间的空间相关性，使用卷积神经网络CNN对跨度

之间的局部交互进行建模。最后，采用基于R-drop的对比学习思想来增强模型的鲁棒

性。本文提出的模型旨在针对中文语言的特点进行优化，提高中文嵌套命名实体识别的

准确性和效率。分别在《人民日报》、CMeEE中文嵌套数据集以及Weibo和Resume

中文平面数据集上，取得了最佳的结果。

关键词：嵌套命名实体识别；深度学习；词典辅助；搜索引擎

维基词典辅助的嵌套命名实体识别方法研究

Abstract

NestedNamedEntityRecognitionisacrucialtechniqueasitenablestheidentificationof

entitiesthatarenestedwithinotherentities,therebyofferingamorecomprehensive

understandingoftheentityinformationpresentinthetext.AccurateNestedNamedEntity

Recognitioncanprovidemoreaccurateandrichsemanticinformationforothernatural

languageprocessingtasks,therebyimprovingtheaccuracyandefficiencyofthesetasks.

Therefore,Nest