基本信息
文件名称:大数据挖掘导论与案例 习题答案 第4章 数据预处理.docx
文件大小:478.7 KB
总页数:9 页
更新时间:2026-03-06
总字数:约5.34千字
文档摘要

大数据挖掘导论与案例习题参考答案

第4章数据预处理

习题1:

数据质量的准确性、完整性、一致性问题,主要源于数据生命周期中采集、存储、处理等环节的疏漏。准确性问题是数据与真实情况不符,多因采集误差(如人工录入将“25岁”误写为“52岁”、温度计故障致读数偏差)、主观偏差(求职时虚报工作年限)或数据转换错误(Excel中日期误转为数字未修正,像“2024/08/29”变“45567”),例如某电商平台用户地址“北京市朝阳区”被误录为“北京市朝阳市”,导致物流配送出错。完整性问题指数据缺失,可能是采集遗漏(问卷未标注“月收入”为必填项致部分人跳过、工厂传感器断连漏记1小时生产数据)、用户因隐私保