基本信息
文件名称:大数据分析与挖掘手册.docx
文件大小:46.54 KB
总页数:35 页
更新时间:2026-03-27
总字数:约2.36万字
文档摘要

大数据分析与挖掘手册

第1章数据采集与预处理

1.1数据来源与类型

数据采集是大数据分析与挖掘的第一步,其核心在于从各种来源获取结构化与非结构化数据。数据来源主要包括结构化数据(如数据库、表格)、非结构化数据(如文本、图像、音频、视频)以及实时数据(如传感器数据、日志文件)。在实际应用中,数据来源可能来自企业内部系统(如CRM、ERP)、外部API接口、社交媒体、物联网设备、用户行为日志等。例如,电商企业可能从用户行为、购物车数据、支付记录等多渠道采集用户数据。

数据类型多样,包括结构化数据(如数据库中的表格)、半结构化数据(如XML、JSON格式)、非结构化数据(如PDF、图