融合说话人信息的多模态对话情感分析方法研究.pdf

基本信息

文件名称：融合说话人信息的多模态对话情感分析方法研究.pdf

文件大小：5.7 MB

总页数：68 页

更新时间：2025-06-02

总字数：约11.12万字

文档摘要

摘要

对话情感分析的目标是预测对话中每一句发言的情感，判断该发言的情感

分类。由于近年来社交媒体平台上产生了大量的公开对话数据，同时对话情感

分析在诸如提高人机交互的体验和效果、促进心理健康和医疗诊断、帮助企业

了解客户需求并提高客户满意度等方面的应用，对话情感分析引起了学术界和

工业界的广泛关注。对话情感分析需要充分利用对话上下文信息、对话者信息

和多模态信息从而更好判断对话中目标发言的情感。本文将试图对上述三种信

息进行建模，提升在多模态场景下对话情感分析任务的效果。本文主要研究内

容如下：

（1）融合说话人信息的对话情感分析方法研究。为更好理解对话者所说发

言的意思，获得更多信息以支撑发言的情感判断，该方法对参与对话的对话者

进行建模。该方法基于图神经网络对发言的长距离上下文信息以及对话者与其

发言之间关系进行建模，在中文多模态对话情感分析数据集MED的多个单模

态任务上较该数据集的SOTA模型MDI都有提升。

（2）融合多模态信息的对话情感分析方法。仅靠单模态信息判断一句发言

的情感会存在误解，而通过多模态信息例如语音的语气变化或视频的表情能更

好分析一句发言的情感。据此，提出了一种多模态对话情感分析方法，该方法

基于图神经网络，在对对话中长距离上下文信息进行建模的基础上，通过考虑

对话中发言不同模态的交互，对多模态信息进行融合。在MED数据集的多个

多模态任务上较SOTA模型DialogueRNN都有提升，仅在文本+视频多模态任

务上没有取得最好效果，但在多模态对话情感分析任务上与SOTA和其他

Baseline在性能上是可比的。

（3）融合说话人信息的多模态对话情感分析方法。为充分利用发言的长距

离上下文信息、参与对话的对话者信息以及多模态信息，基于融合说话人信息

对话情感分析方法和融合多模态信息的对话情感分析方法，实现了一种说话人

信息和多模态信息的融合方法，在M3ED数据集上的所有多模态任务上均取得

最好的效果。

关键词:说话人信息；多模态融合；图神经网络；对话情感分析；

Abstract

Thegoalofemotionrecognitioninconversationalistopredictthesentimentof

eachstatementinaconversationanddeterminethesentimentclassificationofthat

statement.Conversationsentimentanalysishasattractedalotofattentionfrom

academiaandindustryduetothelargeamountofpublicconversationdatagenerated

onsocialmediaplatformsanditsapplicationsinareassuchasimprovingthe

experienceandeffectivenessofhuman-computerinteraction,facilitatingmental

healthandmedicaldiagnosis,andhelpingcompaniesunderstandcustomerneedsand

improvecustomersatisfaction.Conversationalsentimentanalysisneedstomakefull

useofconversation