基于卷积神经网络的汽车行人警示音评价系统设计
摘要:为了使电动汽车的行人警示音符合人耳主观感受及汽车品牌定位,设计了一个基于卷积神经网络的声品质评价系统,实现了对行人警示音频的客观评价。采用等级评分对设计好的音频文件进行主观评价,并获得主观评分。基于ISO532-1:2014标准计算音频文件的响度、粗糙度、抖动度、烦扰度、尖锐度等声品质客观参数,并将其作为卷积神经网络模型的特征输入。评价模型的输出设定为豪华,舒适,科技三个指标。经过数据训练,模型可以有效输出给定指标的评价分数,并与主观评价分数吻合良好。所提出的模型可以实现端到端的声品质客观评价,评价结果能够有效反映人耳主观感受,从而为行人警示音的快速评价提供新的方法。
关键词:行人警示音声品质评价系统声品质参数卷积神经网络
众多汽车公司都在努力实现良好的汽车声音品质,但只有少数公司进行了深入研究,开发具有良好特性的品牌声音以匹配品牌属性[1-2]。设计音频时,人耳对声音的主观评价[3-4]受到职业、年龄和性别等因素的影响,导致评分差异较大,评分不准确,评价过程也需要耗费大量的人力和时间。为了节约时间及人力成本,确保电动汽车的行人警示声[5-6]符合人耳的主观感知和汽车品牌的定位,设计了基于卷积神经网络的声品质评价系统,来实现对行人警示音的客观评价。响度、粗糙度、波动度、烦扰度、尖锐度等心理声学参数被作为特征输入到卷积神经网络模型中,模拟人们听到声音时的心理活动。声品质是参评人员对声音的一种主观感受,通过人的主观感知来评论相同的声音给人在主观感受上带来的差异性。同济大学的方源[7]等人利用阶次分析、频谱分析等技术手段分析了电动车动力总成的主要噪声源,利用声品质客观心理声学参数对动力总成的声品质特性进行了分析研究,建立了可用于描述电动汽车动力总成噪声品质客观参数和主观评价之间相关性的焦躁度评价模型。沃尔沃汽车公司David等人[8]用声学评价参量显著度(PromineceRatio)和声噪率(Tone-to–noiseRatio)来对电动汽车和混合动力汽车车内噪声进行评价。
主观评价中,将设计好的音频给不同性别、年龄、职业的评价人员进行打分,打分的指标有豪华感,科技感,舒适感三项指标,筛选合适的样本,进行相关性分析统计出打分结果,作为音频标签。然后划分数据集,计算得出音频的心理声学参数特征矩阵,将特征矩阵输入卷积神经网络模型中,进行训练,声品质评价系统就设计完成。将音频输入评价系统,可得到评价结果输出。
卷积神经网络模型结构如图1所示,为简化后续警示音设计的过程,需建立高精度的可重复使用的客观量化模型来代替繁杂的声品质主观评价过程,从而节省大量的时间和人力物力成本,也可避免因人员环境等因素带来的误差。本文以5个表征警示音声品质心理声学特性的客观参数作为网络输入,以表征警示音声品质三项指标的作为网络输出。
2主观评价
首先进行主观评价指标调研,选取合适的能表征音频特征,而且人耳能够分辨较明确的主观评价指标。然后,在诸多的主观评价方法之中,选择合适的主观评价方法,使得主观评价更加方便且评价结果误差小。最后,确定声品质主观评价的指标、评价方法以及评价人员,并对评价人员进行试听和培训,在完成这一系列前期准备工作之后再在特定的主观评价试验室中进行评价试验,评价后需对评价结果进行数据分析和检验,获得最终的主观评价值。
2.1主观评价方法
声品质评价主要通过实验研究或社会调查等方式,获取人群对特定声音的主观感受数据,通常以烦恼度,响度,粗糙度等作为噪声主观反应的衡量尺度。主观评价方法是汽车声品质研究中关键的基础方法,常见的有简单排序法、数值估计法、语义细分法、成对比较法和等级评分法等,其中以等级评分法,语义细分法和成对比较法是最为常用等级评分法。本文选择豪华感,舒适感,科技感三个主观评价指标,对行人警示音作出等级的量化评价,选用等级评分法来进行主观评价。
等级评分法需要将声音的某一属性划分为若干个等级,并将不同的分值与每个等级一一对应。为了确保评价者能够给出准确的评价分值,声音样本应按顺序播放且不重复播放。这样有利于评价者根据自身主观感知程度进行评价试验。样本的声品质等级基于每个声音样本的全部评分的平均值。等级评分法易于掌握,操作简单方便,评价结果以数值形式呈现,可直接用于客观分析。国际上常用10级刻度,大量试验证明,评价者的评分绝大多数集中在5-10之间。为了提高评价结果的准确性,应追加参考样本并注明相应的参考等级。此外,在试验前,没有经验的评价者应接受相关培训,熟悉试验样本,接受听音训练,并明确等级划分,以确保评价者能够更准确地进行评价打分。
2.2主观评价过程
为了更准确地区分各声音样本的特性,需要对声音样本进行响度均衡化处理。为了确保评价试验的准确性,在进行评价试验