基本信息
文件名称:《人工智能通识》知识拓展汇总 Chap 2 数据清洗和预处理方法 ---Chap 13 助力美丽中国建设.doc
文件大小:2.91 MB
总页数:21 页
更新时间:2025-07-24
总字数:约2.16万字
文档摘要
数据清洗和预处理方法
1.数据清洗
采集到的数据通常包含噪声和错误,称为“脏数据”,需要进行数据清洗。经过数据清洗,将存在错误的、缺失的,处理为正确、完整的可分析数据。数据清洗方法主要包括去除重复数据、填补缺失数据、处理异常数据等。见表2-9。
表2-9数据清洗的方法
清洗
内容说明
去除重复数据
通过比较数据集内的记录,识别并删除重复的记录,确保每条记录的唯一性
处理缺失值
对于数据集中的缺失值,可以选择多种处理方式。常见的包括删除含有缺失值的记录,或使用均值、中位数、众数等统计值进行填充,也可以使用基于模型(如回归模型)预测的值进行填补
错误数据修正
识别并修正数据中的错误,如拼写错误、逻