基本信息
文件名称:大数据分析与挖掘指南(执行版).docx
文件大小:44.41 KB
总页数:35 页
更新时间:2026-04-04
总字数:约2.4万字
文档摘要

大数据分析与挖掘指南(执行版)

第1章数据采集与预处理

1.1数据来源与类型

数据来源是大数据分析与挖掘的基础,通常包括结构化数据(如数据库、ERP系统)、非结构化数据(如文本、图像、音频、视频)以及半结构化数据(如XML、JSON)。在实际应用中,数据来源可能来自企业内部系统、第三方API、物联网设备、社交媒体、用户行为日志等。数据类型根据其结构和内容可分为结构化数据(如表格数据)、非结构化数据(如PDF、图片、视频)和半结构化数据(如XML、JSON)。在数据采集过程中,需根据业务需求选择合适的数据源,并确保数据的完整性与一致性。

在数据采集阶段,需明确数据的来源单位、数据