基本信息
文件名称:大数据存储与分析手册.docx
文件大小:45.16 KB
总页数:35 页
更新时间:2026-04-04
总字数:约2.42万字
文档摘要
大数据存储与分析手册
第1章数据采集与预处理
1.1数据来源与类型
数据采集是大数据处理的第一步,涉及从各种来源获取原始数据。常见的数据来源包括数据库、日志文件、传感器、API接口、社交媒体、物联网设备、第三方服务等。数据类型多样,包括结构化数据(如关系型数据库中的表格)、非结构化数据(如文本、图像、音频、视频)、半结构化数据(如XML、JSON格式)以及实时流数据(如Kafka、Flink中的流处理数据)。
在实际应用中,数据来源可能涉及多个系统,例如电商平台的用户行为数据、金融行业的交易记录、医疗行业的患者信息、交通系统的GPS数据等。数据来源的多样性要求数据采集过程中需要