基本信息
文件名称:《工业大数据与人工智能》 课件 第二章-2.4 工业大数据处理.pptx
文件大小:6.24 MB
总页数:24 页
更新时间:2025-12-11
总字数:约3.56千字
文档摘要

工业大数据与人工智能HFUT1

2数据预处理分布式计算第二章工业大数据分布式计算的相关计算形式分布式计算范型流式计算的工作流程流式计算2.4.工业大数据处理分布式计算的定义

3数据预处理由于实际数据可能存在噪声、不一致性、冗余、缺失、异常值、重复记录以及类别不平衡等诸多问题,未经预处理的数据易导致挖掘结果偏差。因此,在挖掘前,须对原始数据进行系统性优化,降低后续分析与建模的误差。数据预处理主要包括严格审核数据完整性与准确性,通过逻辑和计算检查识别不合理内容和错误。审核完成后,进入数据筛选流程,该阶段旨在选取适用于分析的有效数据,并整合多源数据。

4数据预处理步骤(1)数据清洗:缺失值