基本信息
文件名称:弱监督环境下的概念漂移检测与适应方法研究.pdf
文件大小:2.82 MB
总页数:55 页
更新时间:2025-03-19
总字数:约9.13万字
文档摘要

摘要

随着新一代信息技术的迅猛发展,流数据呈现出生成速度快、数据体量大、时

效性强等特点,其数据分布可能随时间推移而发生变化,引发概念漂移,直接影响

模型的预测准确度和可靠性。在监督环境下,关于概念漂移的研究已经取得了较好

的进展,特征选择与集成学习等策略可以有效检测概念漂移并提升模型的泛化能力。

然而,在弱监督环境下,流数据面临的标签稀缺和数据噪声问题加剧了模型性能衰

退的速度,使概念漂移的检测过程变得更加复杂,增加了模型更新与适应的难度。

如何在弱监督环境下有效处理概念漂移,已成为流数据挖掘的重要研究方向。本文

针对弱监督环境下的概念漂移检测与适应问题开展研究,主要内容总结如下:

(1)提出一种基于在线深度神经网络的弱监督概念漂移检测方法(Weakly

SupervisedConceptDriftDetectionMethodBasedonOnlineDeepNeuralNetwork,

WSCDD)。该方法设计一种深度神经网络模型,采用Hedge反向传播方法在线学习

网络深度,通过Dropout技术在模型预测时引入随机性,动态适应流数据中的分布

变化;利用蒙特卡罗方法量化深度神经网络模型的预测不确定性,并结合自适应滑

动窗口检测无标记流数据中的概念漂移。实验结果验证了本文方法可以有效检测弱

监督环境下的概念漂移,并提高了模型的泛化性能。

(2)提出一种基于网络结构演化的弱监督概念漂移适应方法(ConceptDrift

AdaptationMethodBasedontheEvolutionofNetworkStructure,CDA_ENS)。该方法

设计了一种网络结构演化策略,通过检测相邻两个窗口中的数据在特征与性能上的

差异性,动态改变网络结构来适应流数据分布变化。同时设计一种基于贝叶斯不确

定性的自标记策略,通过衡量模型与数据的不确定性,生成置信度更高的伪标签,

使未标记样本的预测有足够的模型置信度,缓解噪声的干扰。实验结果表明,该方

法在概念漂移发生后可以快速收敛到新的数据分布,提高模型的泛化性能。

本文的研究工作针对弱监督环境下概念漂检测与适应问题分别提出一种新的方

法。该研究在数据缺少标签时可以有效地捕捉概念漂移的发生,提高概念漂移发生

后模型的收敛速度,为处理概念漂移相关问题提供了新的方法,研究成果丰富了流

数据挖掘的研究内容。

关键词:流数据;概念漂移;弱监督;在线深度网络;结构演化

I

ABSTRACT

Withtherapiddevelopmentofthenewgenerationofinformationtechnology,

streamingdataischaracterizedbyfastgenerationspeed,largevolume,andstrong

timeliness.Thedistributionofthisdatamaychangeovertime,leadingtoconceptdrift,

whichdirectlyaffectsthepredictionaccuracyandreliabilityofmodels.Insupervised

environments,researchonconceptdrifthasmadesignificantprogress,withstrategiessuch

asfeatureselectionandensemblelearningeffectivelydetectingconceptdriftand

enhancingthegeneralizationabilityofmodels.However,