基本信息
文件名称:《大数据分析技术》_第1章-数据预处理.pptx
文件大小:2.83 MB
总页数:26 页
更新时间:2026-01-11
总字数:约3.37千字
文档摘要

§1.1数据预处理的必要性及流程

§1.2数据集成

§1.3数据清洗

§1.4数据变换;

数据预处理的必要性及流程

一、必要性

原始数据为什么要预处理后才能用于分析?

数据来源广泛致类型多样,需预处理为同一类型

数据不完整

数据有缺失值

原始数据含有脏信息需要清洗数据有重复值量纲不一致

必要性数据有奇异值尺度不一致

数据不一致时段不一致

定性变量需数据变换后才能进行数学运算

某些定量变量离散化为定性变量对于分析更有价值;

二、数据预处理流程

数据预处理框