基本信息
文件名称:数据标注工程:第4章 数据标注质量检验.pptx
文件大小:882.74 KB
总页数:9 页
更新时间:2025-06-17
总字数:约1.49千字
文档摘要

大数据应用人才培养系列教材

4.1数据质量影响算法效果

第四章数据标注质量检验

机器学习算法的训练效果有很大程度需要依赖高质量的数据集,如果训练中所使用的标注数据集存在大量噪声,将会导致机器学习训练不充分,无法获得规律,这样在训练效果验证时会出现目标偏离,无法识别的情况。

上图是非专业标注人员标注细胞核,通过标注轮廓的杂乱性可以看出,非专业标注人员标注的数据中存在大量噪声。下图是通过机器学习后验证的训练效果。可以看出,非专业标注员标注的数据通过机器学习只能识别出了一部分目标,而且目标轮廓发生偏移,机器学习没有得到充分的训练。

4.1数据质量影响算法效果

第四章数据标注质量检验

对于质量不高的数据,在进行机器学习前需要经过加工处理,让数据集的整体质量得到提升,以此提高算法的训练效果。机器学习的训练效果与数据集质量的关系如图所示。

图中,当数据集的整体标注质量只有80%的时候,机器学习的训练效果可能只有30%~40%。随着数据标注质量逐步提高,机器学习的效果也会突飞猛进。当数据标注质量达到98%的时候,机器学习的效果为80%,但此时如果数据标注再往上提升,机器学习效果的提升就没有之前那么明显了。

大数据应用人才培养系列教材

4.2数据标注质量标准

第四章数据标注质量检验

4.2.1图像标注质量标准

机器学习训练图像识别是根据像素点进行的,所以对于图像标注的质量标准也是根据像素点位判定,即标注像素点越接近于标注物的边缘像素点,标注的质量就越高,标注难度就越大。

标框标注。我们先需要对标注物最边缘像素点进行判断,然后检验标框的四周边框是否与标注物最边缘像素点误差在1个像素以内。

区域标注。需要特别注意检验转折拐角,因为在图像中转折拐角的边缘像素点噪声最大,最容易产生标注误差。

其他图像标注。其质量标准需要结合实际的算法制定,质量检验人员一定要理解算法的标注要求。

4.2数据标注质量标准

第四章数据标注质量检验

语音标注在质量检验时需要在相对安静的独立环境中进行,在语音标注的质量检验中,质检员需要做到眼耳并用,时刻关注语音数据发音的时间轴与标注区域的音标是否相符,如图,检验每个字的标注是否与语音数据发音的时间轴保持一致。

语音标注的质量标准是标注与发音时间轴误差在1个语音帧以内,在日常对话中,字的发音间隔会很短,尤其是在语速比较快的情况下,如果语音标注的误差超过1个语音帧,很容易标注到下一个发音,让语音数据集中存在更多噪声,影响最终的机器学习效果。

4.2.2语音标注质量标准

4.2数据标注质量标准

第四章数据标注质量检验

4.2.3文本标准质量标准

多音字标注的质量标准就是标注出一个字的全部读音,这需要借助字典等专业性工具进行检验。

语义标注的质量标准是标注出词语或语句的语义,在检验中分为3种情况:1、针对单独词语或语句进行检验;2、针对上下文的情景环境进行检验;3、针对语音数据中的语音语调进行检验。3种语义标注检验除了需要借助字典等专业性工具外,还需要理解上下文的情景环境或语音语调的含义。

大数据应用人才培养系列教材

4.3数据标注质量检验方法

第四章数据标注质量检验

4.3.1实时检验

实时检验方法的优点:

1)能够及时发现问题并解决问题。

2)能够有效减少标注过程中重复错误的重复出现。

3)能够保证整体标注任务的流畅性。

4)能够实时掌握数据标准的任务进度。

实时检验的缺点:

对于人员的配备及管理要求较高。

实时检查流程图