基本信息
文件名称:大数据技术应用与数据分析手册.docx
文件大小:47.95 KB
总页数:39 页
更新时间:2026-03-22
总字数:约2.62万字
文档摘要

大数据技术应用与数据分析手册

第1章数据采集与处理

1.1数据源与数据格式

数据源是数据采集的起点,常见的数据源包括结构化数据(如数据库、关系型数据库、NoSQL数据库)、非结构化数据(如日志文件、文本文件、图片、视频)、半结构化数据(如XML、JSON、CSV文件)以及实时数据流(如MQTT、Kafka、Flume等)。在实际应用中,数据源可能来自多个渠道,如企业内部系统、第三方API、物联网设备、用户行为日志等。数据格式决定了数据的可读性和可处理性。常见的数据格式包括:

(1)结构化数据:如关系型数据库中的表格,每列有明确的类型和名称,数据以行和列的形式存储。

(2)非结