基于RegNet和投票算法的词义消歧研究
摘要
词义消歧是自然语言处理领域中一个长期存在的重要问题。歧义词在不同
的语境中往往有不同的含义,词义消歧是根据歧义词汇的上下文来确定其语义
类别的过程。词义消歧对机器翻译、语音识别、文本分类、搜索引擎等方面都
有很大的影响。
为了解决消歧准确率较低的问题,本文研究了消歧知识和卷积神经网络,
提出了以RegNet模型为主体的词义消歧方法来确定歧义词的真实语义,并引入
注意力机制、空洞卷积和投票算法来提高消歧准确率。采用SemEval-2007:
Task#5的训练语料优化词义消歧模型,利用SemEval-2007:Task#5的测试语料
测试词义消歧模型的性能。本文主要对以下四个部分进行了详细的研究:
(1)研究词义消歧的背景、意义和应用场景,以及研究国内外词义消歧领
域的现状。学习自然语言处理领域的知识,介绍词义消歧的基本方法。研究训
练语料和测试语料的预处理过程,包括词性标注和语义类标注。
(2)构建基于RegNet词义消歧模型。将歧义词左右两侧邻接词汇单元的
词形、词性和语义类作为消歧特征,采用Word2Vec工具向量化词形、词性和语
义类后构建特征矩阵,使用softmax分类器进行语义分类。
(3)以RegNet为基础,提出融合注意力机制和空洞卷积的RegNet词义消
歧模型。介绍注意力机制和空洞卷积,注意力机制可以优化消歧特征,空洞卷
积可以得到更大的感受野。
(4)提出基于注意力机制和空洞卷积的RegNet以及投票算法词义消歧模
型,完成词义消歧任务。利用训练语料不断优化词义消歧模型,并采用测试语
料对模型的消歧性能进行测试。
关键词词义消歧;RegNet;注意力机制;空洞卷积;投票算法
-I-
ResearchonWordSenseDisambiguationBasedon
RegNetandVotingalgorithm
Abstract
Wordsensedisambiguation(WSD)isachronicandimportantprobleminfield
ofnaturallanguageprocessing.Ambiguouswordsoftenhavedifferentmeaningsin
differentcontexts.WSDistheprocessofdeterminingsemanticcategoryof
ambiguouswordbasedonitscontext.Ithasagreatimpactonmachinetranslation,
speechrecognition,textclassification,searchenginesandsoon.
InordertosolvetheproblemoflowaccuracyinWSD,thisdissertationstudies
disambiguationknowledgeandconvolutionneuralnetwork.AWSDmethodbased
onRegNetisproposedtodeterminetruesemanticofambiguousword.Attention
mechanism,dilatedconvolutionandvotingalgorithmareintroducedtoimprove
disambiguationaccuracy.TrainingcorpusofSemEval-2007:Task#5isusedto
optimizeWSDmodel,andtestcorpusofSemEval-2007:Task#5