维基词典辅助的嵌套命名实体识别方法研究
摘要
嵌套命名实体识别在自然语言处理中扮演着重要的角色,其意义在于能够更加准确
地提取文本中的实体信息。相较于传统的命名实体识别,嵌套命名实体识别能够识别出
嵌套于其他实体内部的实体,更加全面地反映文本中的实体信息。准确的嵌套命名实体
识别能够为其他自然语言处理任务提供更加准确和丰富的语义信息,从而提高这些任务
的准确度和效率。因此,嵌套命名实体识别是自然语言处理领域的重要研究方向,对于
促进自然语言处理技术的发展和应用具有重要的意义。当前的嵌套命名实体识别方法通
常使用基于字符或词汇级别的浅层特征,这种方法无法充分利用词汇信息,而且仅侧重
于内部上下文信息的利用,忽略了外部信息的使用。此外,现有研究主要关注英文数据
集,对中文嵌套命名实体的研究相对较少。为了提高嵌套命名实体识别的准确性,本文
针对英文领域,提出了基于维基搜索引擎的嵌套命名实体识别方法,引入外部知识来获
取更丰富的语义信息。针对中文语言的特点,提出了中文嵌套命名实体识别模型,对维
基搜索引擎方法进一步改进,避免了特定长度枚举的限制。具体而言,本文研究工作主
要分为以下两部分:
(1)针对英文嵌套命名实体识别问题,提出了基于维基搜索引擎的嵌套命名实体
识别模型。该模型主体部分采用基于跨度的两阶段嵌套命名实体识别方法,结合跨度边
界回归和片段分类联合任务解决方案,先定位实体位置及类别,再进行跨度过滤和边界
调整。在主体模型基础上融合本地维基搜索引擎辅助方法,通过从本地维基搜索引擎中
检索跨度的上下文来增强原始输入跨度,有效地捕获更好的token表示,采用
BERT-CRF来得到标签和置信度分数,以辅助过滤器更好地执行二分类任务,提高识别
准确度。在ACE2004、ACE2005、KBP17和GENIA四个通用的英文嵌套命名实体识
别数据集上全面评估模型有效性,包括与基线模型进行的对比实验和消融实验。对比实
验结果表明,相较于基线模型,本文提出的模型在嵌套命名实体的识别准确性方面有了
明显的提升。消融实验结果表明,本文方法中的各个组件均对模型性能有着不同程度的
贡献。
2
()针对中文领域,提出了维基词典辅助的嵌套命名实体识别模型。该模型通过
使用维基词典获得匹配词组来构成字符-词组对,并将其集成到BERT中间层,充分利
用BERT表示能力。中文词组所包含的语义信息比单个字符更丰富,引入词典信息增
哈尔滨工程大学硕士学位论文
强特征,获取更丰富的语义。使用双仿射结构,获取跨度的全局视图,避免了特定长度
枚举的限制。同时,利用相邻跨度之间的空间相关性,使用卷积神经网络CNN对跨度
之间的局部交互进行建模。最后,采用基于R-drop的对比学习思想来增强模型的鲁棒
性。本文提出的模型旨在针对中文语言的特点进行优化,提高中文嵌套命名实体识别的
准确性和效率。分别在《人民日报》、CMeEE中文嵌套数据集以及Weibo和Resume
中文平面数据集上,取得了最佳的结果。
关键词:嵌套命名实体识别;深度学习;词典辅助;搜索引擎
维基词典辅助的嵌套命名实体识别方法研究
Abstract
NestedNamedEntityRecognitionisacrucialtechniqueasitenablestheidentificationof
entitiesthatarenestedwithinotherentities,therebyofferingamorecomprehensive
understandingoftheentityinformationpresentinthetext.AccurateNestedNamedEntity
Recognitioncanprovidemoreaccurateandrichsemanticinformationforothernatural
languageprocessingtasks,therebyimprovingtheaccuracyandefficiencyofthesetasks.
Therefore,Nest