基于VIT网络的车辆重识别算法研究
摘要
车辆重识别技术是利用硬件设备及软件技术,定位、跟踪监控系统中的车辆,实现
不同拍摄点、不同时间的同一车辆的识别,相比于人工的方式,在效率、精确度上得到
了成倍的提升。该技术的提出对于很多领域有着重要的应用价值,例如提供交通逃逸、
车牌伪造、涂抹等违法线索,还能够对于未来交通局部规划提供决策支撑。综上所述,
车辆重识别技术的提出和发展对于人们生活、交通安全、警察破案等具有重要的意义。
目前主流的车辆重识别算法存在以下不足:感知范围有限,下采样会导致细节特征
的丢失,对于外观相似度较高的车辆无法进行区分,导致重识别的精确度无法进一步提
升。为了针对上述问题,本文提出了三种基于CNN及VisionTransformer(VIT)的车辆
重识别算法:ResNet-VIT、VGG16-VIT和EfficientNet-VIT。本文分别采用预训练的
ResNet、VGG16和EfficientNetB0作为特征提取器,引入批量标准化层和全局平均池化
层加速收敛并降低过拟合风险。接着,设计简化版VIT模型,包括投影层、多头自注意
力层、展平层和分类层,捕捉长距离依赖关系。经实验表明,所提出的方法在车辆重识
别任务上有效,准确性和鲁棒性方面优于现有的主流方法,并在参数和计算量上更为节
省,为未来研究提供了新的思路。
为了降低背景噪音的干扰,本文提出了一种多级空间变换网络,将多个空间变换网
络融入到卷积层中,去除背景冗余。为了提升算法的鲁棒性以及更好的提取细粒度特征,
本文提出了一种基于空间变换的车辆重识别算法ESV,将多级空间变换网络加入到表现
较为优秀的EfficientNet-VIT中,可以实现更丰富、更复杂的几何变换,这样可以扩展网
络的表示能力,以适应更广泛的几何变换要求。最后进行了实验验证,来验证该算法的
有效性。
关键词:车辆重识别;卷积神经网络;VisionTransformer;空间变换网络
基于VIT网络的车辆重识别算法研究
Abstract
Vehiclere-identificationtechnologyistheuseofhardwareequipmentandsoftware
technologytolocateandtrackvehiclesinthemonitoringsystem,toachievedifferentshooting
points,differenttimeofthesamevehicleidentification,comparedtothemanualway,in
efficiency,accuracyhasbeenexponentiallyimproved.Theproposedtechnologyhasimportant
applicationvalueformanyfields,suchasprovidingcluestotrafficevasion,plateforgery,
smearingandotherillegalclues,andcanalsoprovidedecisionsupportforfuturetrafficlocal
planning.Tosumup,theproposedanddevelopmentofvehiclere-identificationtechnologyhas
importantsignificanceforpeopleslife,trafficsafety,policecrimesolving,etc.
Thecurrentmainstreamvehiclere-recognitionalgorithmshavethefollowing
shortcomings:limitedsensingrange