多维传感器时序数据的质量评估及分类研究
摘要
大数据时代,数据贯穿实验研究的各个方面,使用合适的方法评估数据质量是否满
足后续实验的需要具有重要意义。数据质量评估为数据采集者以及数据使用者提供有力
的支撑,有利于数据使用者在实验过程中进行合理的判断,并做出有效的决策。数据质
量评估的目标有两个,一是在数据采集阶段通过对数据质量进行评估验证硬件设备是否
存在问题,二是可以有效筛除数据集中存在的数据质量不高的数据,从而在后续的实验
过程中提升实验的准确率。
本文以帕金森数据集为主体,研究多维传感器时序数据的质量评估及分类算法。
首先,为了有效提高时序数据的质量,针对传感器时序数据的特点构建了一个完整
的数据质量评估指标体系,提出一种权重集成方法。在确定评估指标和规则后,利用针
对不同属性的多种方法计算每个评估指标的得分,把相对优势度和模糊层次分析法计算
的权重通过集成构造每个指标的权重,解决了决策过程中由于决策者的不同偏好,对数
据指标重要性排序不一致的问题。
其次,定义了一种新犹豫模糊集,使用不同指标的得分构建一种新的犹豫模糊集,
弥补了原始犹豫模糊集不能准确反映数据问题的缺陷。基于新犹豫模糊集的特点,将犹
豫模糊数的标准差加入到犹豫度的计算中,更新犹豫度的计算方法,基于犹豫度定义了
犹豫模糊数之间的Minkowski距离测度和Minkowski加权距离测度。
最后,提出了基于新犹豫模糊集的VIKOR多属性决策方法,对数据质量得分进行
排序。针对帕金森数据集的特点,使用分开标准化的方法,将帕金森数据集中的三部分
数据分别标准化,使用基于新犹豫模糊集的VIKOR模型计算数据的质量得分,筛除得
分低的数据,并对剩余数据进行分类验证,通过对分类指标的分析,验证数据质量评估
方法的有效性。
关键词:数据质量评估;权重计算;犹豫模糊集;VIKOR方法
多维传感器时序数据的质量评估及分类研究
ABSTRACT
Intheeraofbigdata,datarunsthroughallaspectsofexperimentalresearch,soitisof
greatsignificancetouseappropriatemethodstoevaluatewhetherdataqualitymeetstheneeds
ofsubsequentexperiments.Dataqualityassessmentprovidesstrongsupportfordatacollectors
anddatausers,whichisconducivetodatauserstomakereasonablejudgmentsandmake
effectivedecisionsduringtheexperiment.Therearetwoobjectivesofdataqualityassessment.
Oneistoverifywhetherthereisaprobleminthehardwareequipmentthroughdataquality
assessmentinthedataacquisitionstage;theotheristoeffectivelyscreenoutthedatawithpoor
dataqualityinthedataset,soastoimprovetheaccuracyoftheexperimentinthesubsequent
experiment.
Inthispaper,thequalityevaluationandclassificationalgorithmofmulti-dimensional
sensortimingdataarest