基本信息
文件名称:大数据应用开发与数据分析手册.docx
文件大小:47.23 KB
总页数:36 页
更新时间:2026-03-29
总字数:约2.48万字
文档摘要
大数据应用开发与数据分析手册
第1章数据采集与预处理
1.1数据源与采集方法
数据采集是大数据应用开发的第一步,涉及从各种来源获取结构化和非结构化数据。常见的数据源包括数据库(如MySQL、Oracle)、关系型和非关系型数据库(如MongoDB)、API接口、日志文件、传感器数据、社交媒体平台(如Twitter、Facebook)、物联网设备、网页爬虫、第三方数据提供商等。采集方法根据数据源类型不同而有所区别。对于结构化数据,通常使用SQL查询、ETL工具(如Informatica、ApacheNifi)或数据库自带的导出功能;对于非结构化数据,常用Web爬虫(如Beautifu