基本信息
文件名称:大数据技术导论 课件 第5章 数据清洗.ppt
文件大小:7.26 MB
总页数:22 页
更新时间:2025-08-22
总字数:约2.31千字
文档摘要
KettleKettle中文名称叫水壶,是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。使用Kettle可以完成数据仓库中的数据清洗与数据转换工作,常见的操作有:数据类型的转换、数据值的修改与映射、数据排序、空值的填充、重复数据的清洗、超出范围的数据清洗、日志的写入、数据值的过滤以及随机值的运算等。谢谢观看**第5章数据清洗目录数据清洗概述数据质量与数据质量管理的发展数据清洗工具数据清洗概述PART01认识数据清洗在众多数据中总是存在着许多“脏”数据,即不完整、不规范、不准确的数据,因此数据清