基本信息
文件名称:Python数据挖掘第三章-数据预处理.pptx
文件大小:36.19 MB
总页数:48 页
更新时间:2025-11-22
总字数:约9千字
文档摘要

Python数据挖掘数第三章据预处理

前言原始数据或多或少会存在一些问题,比如可能会有缺失值、异常值和重复值,不同来源的原始数据可能以不同的格式和结构存在,原始数据可能以不同的形式和单位表示,这些问题会影响到数据挖掘与分析的效率和准确性。直接使用未经预处理的原始数据,就像是在没有指南针的情况下航海,可能会导致偏离真实的数据挖掘与分析结果模型预测。

目录概述数据集成数据清洗数据变换

01概述

未经处理过的数据可能会造成的影响例3-1一个典型的例子是在进行客户细分时,如果原始数据集包含大量缺失值和异常值的数据集。1.缺失值的影响如果客户的某些重要属性数据缺失,将这些客户归入任何一个细分群体都可