基本信息
文件名称:企业管理- MapReduce 的工作流程.doc
文件大小:37 KB
总页数:4 页
更新时间:2025-07-12
总字数:约1.78千字
文档摘要
企业管理-MapReduce的工作流程
一、数据输入与分片
(一)数据存储与读取
MapReduce处理的数据通常存储在分布式文件系统(如Hadoop分布式文件系统HDFS)中。任务启动时,主节点(JobTracker,在Hadoop1.x版本中,Hadoop2.x版本为ResourceManager)会从文件系统读取数据文件。例如,在处理大规模日志文件时,文件会被存储在HDFS的多个数据节点上。
(二)数据分片(Split)
主节点将输入数据划分为多个数据分片(Split),每个分片大小通常与HDFS的块大小一致(默认为128MB)。数据分片是逻辑概念,不