基本信息
文件名称:维基词典辅助的嵌套命名实体识别方法研究.pdf
文件大小:4.64 MB
总页数:65 页
更新时间:2025-05-28
总字数:约10.37万字
文档摘要

维基词典辅助的嵌套命名实体识别方法研究

摘要

嵌套命名实体识别在自然语言处理中扮演着重要的角色,其意义在于能够更加准确

地提取文本中的实体信息。相较于传统的命名实体识别,嵌套命名实体识别能够识别出

嵌套于其他实体内部的实体,更加全面地反映文本中的实体信息。准确的嵌套命名实体

识别能够为其他自然语言处理任务提供更加准确和丰富的语义信息,从而提高这些任务

的准确度和效率。因此,嵌套命名实体识别是自然语言处理领域的重要研究方向,对于

促进自然语言处理技术的发展和应用具有重要的意义。当前的嵌套命名实体识别方法通

常使用基于字符或词汇级别的浅层特征,这种方法无法充分利用词汇信息,而且仅侧重

于内部上下文信息的利用,忽略了外部信息的使用。此外,现有研究主要关注英文数据

集,对中文嵌套命名实体的研究相对较少。为了提高嵌套命名实体识别的准确性,本文

针对英文领域,提出了基于维基搜索引擎的嵌套命名实体识别方法,引入外部知识来获

取更丰富的语义信息。针对中文语言的特点,提出了中文嵌套命名实体识别模型,对维

基搜索引擎方法进一步改进,避免了特定长度枚举的限制。具体而言,本文研究工作主

要分为以下两部分:

(1)针对英文嵌套命名实体识别问题,提出了基于维基搜索引擎的嵌套命名实体

识别模型。该模型主体部分采用基于跨度的两阶段嵌套命名实体识别方法,结合跨度边

界回归和片段分类联合任务解决方案,先定位实体位置及类别,再进行跨度过滤和边界

调整。在主体模型基础上融合本地维基搜索引擎辅助方法,通过从本地维基搜索引擎中

检索跨度的上下文来增强原始输入跨度,有效地捕获更好的token表示,采用

BERT-CRF来得到标签和置信度分数,以辅助过滤器更好地执行二分类任务,提高识别

准确度。在ACE2004、ACE2005、KBP17和GENIA四个通用的英文嵌套命名实体识

别数据集上全面评估模型有效性,包括与基线模型进行的对比实验和消融实验。对比实

验结果表明,相较于基线模型,本文提出的模型在嵌套命名实体的识别准确性方面有了

明显的提升。消融实验结果表明,本文方法中的各个组件均对模型性能有着不同程度的

贡献。

2

()针对中文领域,提出了维基词典辅助的嵌套命名实体识别模型。该模型通过

使用维基词典获得匹配词组来构成字符-词组对,并将其集成到BERT中间层,充分利

用BERT表示能力。中文词组所包含的语义信息比单个字符更丰富,引入词典信息增

哈尔滨工程大学硕士学位论文

强特征,获取更丰富的语义。使用双仿射结构,获取跨度的全局视图,避免了特定长度

枚举的限制。同时,利用相邻跨度之间的空间相关性,使用卷积神经网络CNN对跨度

之间的局部交互进行建模。最后,采用基于R-drop的对比学习思想来增强模型的鲁棒

性。本文提出的模型旨在针对中文语言的特点进行优化,提高中文嵌套命名实体识别的

准确性和效率。分别在《人民日报》、CMeEE中文嵌套数据集以及Weibo和Resume

中文平面数据集上,取得了最佳的结果。

关键词:嵌套命名实体识别;深度学习;词典辅助;搜索引擎

维基词典辅助的嵌套命名实体识别方法研究

Abstract

NestedNamedEntityRecognitionisacrucialtechniqueasitenablestheidentificationof

entitiesthatarenestedwithinotherentities,therebyofferingamorecomprehensive

understandingoftheentityinformationpresentinthetext.AccurateNestedNamedEntity

Recognitioncanprovidemoreaccurateandrichsemanticinformationforothernatural

languageprocessingtasks,therebyimprovingtheaccuracyandefficiencyofthesetasks.

Therefore,Nest