基于反事实图像生成的深度学习模型解释方法研究
摘要
随着深度学习的不断发展,深度学习系统的应用变得越来越普遍,给人们的生活
带来了极大的便利。但是复杂的深度学习模型属于黑盒模型,人们难以解释其决策过
程,亟需提高透明性和可解释性。
反事实解释是一种常见的解释技术,可以被理解为模拟数据中某些特征的变化,
以此来推断模型的决策结果会发生何种变化。在这个过程中,模型会生成一组反事实
数据,即假想的输入数据,这些数据可以用于解释模型的决策结果。虽然当下的反事
实解释方法有着不俗的性能表现,但是忽略了生成结果的语义一致性,从而生成了难
以被人理解和不真实的解释。因此,本文面向深度学习模型,研究有效的反事实解释
技术。
首先,针对反事实视觉解释(CounterfactualVisualExplanations,CVE)中会出现
语义不一致的反事实解释问题,提出基于深度聚类的反事实解释生成模型。该方法通
过添加语义约束深度聚类模块,强制模型替换语义相似或一致的空间单元。实验结果
表明,所提出的模型在CUB200公开数据集上的表现优于CVE方法。
其次,针对CVE方法中使用单个干扰图像使得可替换的空间单元范围局限的问题,
提出基于多干扰图像的改进CVE方法。该方法使用多个干扰图像,拓宽了模型对空间
单元的搜索空间,使得模型能够找到更具辨识度的空间单元,且减少了编辑次数。此
外,论文通过添加图像抠图模块降低了模型的计算复杂度。
最后,论文在CUB200和StanfordDogs数据集上验证了整体模型的性能,对论文
提出的模型与现有反事实解释生成方法进行实验对比,通过评估视觉结果和各个评价
指标证明了本文提出的模型优于其他方法,生成了更语义一致和更具辨识度的解释,
且计算复杂度更低。
关键词:深度学习;反事实解释;深度聚类;图像抠图
基于反事实图像生成的深度学习模型解释方法研究
Abstract
Withthecontinuousdevelopmentofdeeplearning,theapplicationofdeeplearning
systemshasbecomeincreasinglycommon,bringinggreatconveniencetopeopleslives.
However,complexdeeplearningmodelsareconsideredblack-boxmodels,makingitdifficult
forpeopletoexplaintheirdecision-makingprocesses.Thereisanurgentneedtoimprove
transparencyandinterpretability.
Counterfactualexplanationisacommontechniquethatcanbeunderstoodassimulating
changesincertainfeaturesofthedatatoinferhowthemodelsdecisionwouldchange
accordingly.Inthisprocess,themodelgeneratesasetofcounterfactualdata,whichare
hypotheticalinputdatausedtoexplainthemodelsdecisions.Althoughcurrentcounterfactual
explanationmethodshaveshownpromisingperformance,theyoftenoverlookthesemantic
consistencyofthegeneratedresults,resultinginexplanationsthataredif