基本信息
文件名称:2025年大数据应用与挖掘手册.docx
文件大小:45.12 KB
总页数:34 页
更新时间:2026-03-21
总字数:约2.17万字
文档摘要
2025年大数据应用与挖掘手册
第1章数据采集与预处理
1.1数据来源与类型
数据来源是数据采集的基础,通常包括结构化数据、非结构化数据、实时数据、历史数据等多种类型。结构化数据如数据库中的表格数据、Excel文件、关系型数据库等,具有明确的字段和数据类型;非结构化数据如文本、图像、视频、音频等,没有固定格式,需通过自然语言处理(NLP)等技术进行处理;实时数据是指在数据时即被采集并处理,如物联网传感器数据、金融交易数据等;历史数据则是存储在数据库中的过去数据,用于分析趋势和模式。数据来源可以来自企业内部系统、外部API接口、社交媒体、政府公开数据、行业报告、用户行为日志等。例如,