基于情感分析和Transformer的谣言检测研究的国内外文献综述
目录
TOC\o1-2\h\u9948基于情感分析和Transformer的谣言检测研究的国内外文献综述 1
150731.1引言 1
215601.2基于传统机器学习的谣言检测 2
249411.1.1基于文本内容的谣言检测 2
250431.1.2基于用户行为的谣言检测 3
34601.1.3基于时间序列的谣言检测 3
217531.1.4基于传播模型的谣言检测 4
275031.3基于深度神经网络模型的谣言检测 5
154161.3.1基于循环神经网络模型的谣言检测 5
156931.3.2基于卷积神经网络模型的谣言检测 5
40841.3.3结合卷积神经网络和循环神经网络模型的谣言检测 6
178551.3.4基于生成对抗网络的谣言检测 6
196601.4研究现状总结 6
26954参考文献 7
1.1引言
谣言是一种特殊的社会现象,它已伴随了人类社会千余年,有学者认为谣言与人类的集体记忆和社会情形相关。我们无法预测谣言的发生和结束,它具有偶然性和突发性。一直以来,国内外许多专家学者对谣言的产生、特性以及传播方式做了大量的研究,在心理学、社会学等多个领域中,对谣言的定义都是不同的,目前,关于“谣言”,并没有一个明确的概念。
谣言是通过刻意歪曲、虚构或编造某一事实所产生一种与事实不符的信息,百度百科[2]将“谣言”定义为没有相应事实基础,却被捏造出来并通过一定手段推动传播的言论,另一种说法[49]将谣言定义为一种非正式官方的、在某一范围、某一特定人群和某一时期内传播的包含虚假成分的信息。由此可以看出,谣言可能是完全没有事实依据凭空产生的,也可能包含一定的真实成分,并非完全虚假。
由于互联网的迅速发展,现代谣言并不在局限于一定区域、一定人群和一定时期内传播,网络谣言的传播范围广,传播速度快,传播途径多,传播时间长,且具有反复性。本文中所讨论的谣言是指那些没有真实凭证、刻意捏造的或者有部分事实依据,却被造谣者故意夸大扭曲的、偏离了事实真相的消息。
谣言检测的目的在于能够及时有效的发现谣言并遏制其传播,降低谣言造成的社会危害和不良影响。当前许多社交平台针对谣言的检测方法依赖于用户的揭发检举和相关专家或官方部门的证实,然而这种方法效率低下,无法实现谣言实时检测。因此,一种自动识别谣言的方法成为了近几年研究的热门方向。
针对社交网络中的谣言泛滥问题,学术界进行了大量的研究与探索,大多数研究者将谣言检测看作一个二分类问题,目前谣言检测包括两个发展阶段:早期基于传统机器学习的谣言检测和基于深度神经网络模型的谣言检测。
1.2基于传统机器学习的谣言检测
早期的谣言检测工作主要侧重于从文本内容、用户行为、时间序列和传播结构中提取谣言特征,用有监督的方式从标记数据中训练分类器,该方法重点在于选取具有高区分度的谣言特征,因此基于传统机器学习的谣言检测方法可按谣言的特征将其分为以下四类:基于文本内容的谣言检测、基于用户行为的谣言检测、基于时间序列的谣言检测和基于传播模型的谣言检测。
1.1.1基于文本内容的谣言检测
基于文本内容的谣言检测方法主要利用该事件的文字描述信息,从中提取文本内容特征,用于训练谣言分类器。其中文本内容特征主要包括词汇特征(Lexicalfeatures)、语法特征(Grammaticalfeatures)、句法特征(Syntacticfeatures)、语义特征(Semanticfeatures)和主题特征(Themefeatures)。
Qazvinia等人[3]选取了句法特征和词汇特征来检测谣言,使用词袋模型提取了文本词汇的一元词汇特征和二元词汇特征,进一步提取了文本词汇的一元词性特征和二元词性特征,通过对收集到的数据进行分类标注,验证了浅层文本内容特征和微博元素特征在谣言检测中的区分度和有效性,通过集成分类器和贝叶斯分类器输出Twitter数据的类别。Gayo-Avello等人[4]和Castillo等人[5]认为虚假信息与真实信息在内容模式上存在不同,大多数谣言是被编造出来的,其目的在于误导民众,为更好地吸引公众注意在内容模式上具有极强的夸张性,与真实信息相比,谣言文本的长度普遍较短。Castillo等人[5]基于Twitter数据,针对谣言的内容模式,提取了内容、用户、话题和传播四类特征共68个,选取了其中最具区分度的15个特征,并构建的J48决策树对Twitter平台上特定的新闻主题信息的真实度进行了评估,最终识别准确率达到了86%。
除了词汇特征或语义特征外,一些研究者提出了另外可以反映谣言文本内容特性的主题特