基于傅里叶特征的对抗样本防御方法的研究
摘要
由于深度学习在现实应用中面临着极其复杂的场景和安全问题,特别是在金融和医
疗领域,简单地假设模型的训练环境和预测环境是独立同分布的,可能会导致意想不到
的安全风险。研究人员发现,正常情况下表现良好的深度神经网络很容易受到对抗样本
的影响,这严重阻碍了深度学习应用在安全敏感领域的发展。
关于对抗样本的研究存在两个方面的问题:一方面,对抗样本的生成方式多种多样,
其防御方法需要考虑到多种攻击方式,以保证模型的对抗鲁棒性;另一方面,当前评估
模型的对抗鲁棒性主要以准确率为基础,缺乏与其他领域相结合的可量化指标。本文围
绕以上两个问题,聚焦于图像分类任务,研究对抗样本防御方法和对抗鲁棒性评估问题,
主要的创新性成果如下:
首先,基于傅里叶特征映射提出一种对抗样本防御方法,并将其命名为傅里叶特征
输入变换。该方法将要送入到神经网络训练的样本先进行傅里叶特征映射,再将映射后
的数据送入到神经网络进行训练,用以增强模型的对抗鲁棒性。在对抗环境下,该方法
能够将映射后的数据更容易准确分类。实验结果表明,傅里叶特征输入变换不但能够增
强模型的对抗鲁棒性,而且还会加快模型的收敛速度。
其次,为进一步提升模型的对抗鲁棒性,将傅里叶特征输入变换与对抗训练相结合,
提出一种对抗样本防御方法:基于傅里叶特征输入变换的对抗训练。该方法将要送入到
神经网络进行对抗训练的对抗样本先进行傅里叶特征映射,再将映射后的数据送入到神
经网络中进行对抗训练,用以增强模型的对抗鲁棒性。实验结果表明,使用该方法的模
型能大幅增强模型识别对抗样本的准确率,但是在识别原始样本时存在准确率下降的情
况。
最后,借鉴心理物理学领域内的相关概念,将心理物理学与机器学习相结合,提出
一种对抗鲁棒性评估指标:对抗鲁棒性知觉。该指标把对抗样本视为对神经网络的一种
“刺激”,并通过计算量化出该“刺激”的程度,用以衡量模型的对抗鲁棒性。当比较
两个模型的对抗鲁棒性时,只需比较能够使模型误分类的对抗样本的对抗鲁棒性知觉。
实验结果表明,对抗鲁棒性知觉能够评估模型的对抗鲁棒性,并且攻击能力越强的对抗
样本,对抗鲁棒性知觉越小。即模型的对抗鲁棒性与对抗鲁棒性知觉成反比。
关键字:对抗样本防御;傅里叶特征;对抗训练;对抗鲁棒性
基于傅里叶特征的对抗样本防御方法的研究
Abstract
Duetotheextremelycomplexscenariosandsecurityissuesthatdeeplearningfacesin
practicalapplications,particularlyinthefinanceandhealthcarefields,assumingthatthe
trainingandpredictionenvironmentsofmodelsareindependentlyandidenticallydistributed
mayleadtounexpectedsecurityrisks.Researchershavefoundthatdeepneuralnetworksthat
performwellundernormalconditionsareeasilyinfluencedbyadversarialexamples,which
severelyhindersthedevelopmentofdeeplearninginsecurity-sensitiveareas.
Therearetwomainissueswithresearchonadversarialexamples:ononehand,the
generationmethodsofadversarialexamplesarediverse,anddefensemethodsneedtoconsider
multipleattackmethodstoensuretherobustnessofthem