基本信息
文件名称:企业管理- MapReduce 的工作流程.doc
文件大小:37 KB
总页数:4 页
更新时间:2025-07-12
总字数:约1.78千字
文档摘要

企业管理-MapReduce的工作流程

一、数据输入与分片

(一)数据存储与读取

MapReduce处理的数据通常存储在分布式文件系统(如Hadoop分布式文件系统HDFS)中。任务启动时,主节点(JobTracker,在Hadoop1.x版本中,Hadoop2.x版本为ResourceManager)会从文件系统读取数据文件。例如,在处理大规模日志文件时,文件会被存储在HDFS的多个数据节点上。

(二)数据分片(Split)

主节点将输入数据划分为多个数据分片(Split),每个分片大小通常与HDFS的块大小一致(默认为128MB)。数据分片是逻辑概念,不