mapreduce 源码分析

作者: 阝月艹帝
来源: 51数据库
2020-09-21

MapReduce作业提交源码分析
我们在编写MapReduce程序的时候，首先需要编写Map函数和Reduce函数。完成mapper和reducer的编写后，进行Job的配置；Job配置完成后，调用Job.submit()方法完成作业的提交。那我们思考一下，Job最终如何完成作业(job)的提交呢？粗略想一下，Job必然需要通过某种方式连接到JobTracker，因为只有这样才能将job提交到JobTracker上进行调度执行。还需要考虑一下，我们自己编写的mapper和reducer，即Jar文件如何传送到JobTracker上呢？其中有一种最简单也比较直观的方法，直接通过socket传输给JobTracker，由JobTracker再传输给TaskTracker（注意：MapReduce并没有采用这种方法）。第三个需要考虑的内容是，JobTracker如何将用户作业的配置转化成map task和reduce task。下面我们来分析一下MapReduce这些功能的实现。
首先在class Job内部通过JobClient完成作业的提交，最终由JobClient完成与JobTracker的交互功能。在JobClient的构造函数中，通过调用RPC完成与JobTracker连接的建立。
完成建立后，JobClient首先确定job相关文件的存放位置（我们上面提到mapreduce没有采用将jar即其他文件传输给JobTracker的方式，而是将这些文件保存到HDFS当中，并且可以根据用户的配置存放多份）。至于该存放目录的分配是通过调用RPC访问JobTracker的方法来进行分配的，下面看一下JobTracker的分配代码：
final Path stagingRootDir = new Path(conf.get(
"mapreduce.jobtracker.staging.root.dir",
"/tmp/Hadoop/mapred/staging"));
final FileSystem fs = stagingRootDir.getFileSystem(conf);
return fs.makeQualified(new Path(stagingRootDir, user + "/.staging")).toString();

注意上面代码所生成的stagingRootDir是所有job文件的存放目录，是一个根目录，并不单指当前job。
完成job存放目录的分配后，JobClient向JobTracker申请一个JobID（通过RPC，注意基本上JobClient与JobTracker的所有通信都是通过RPC完成的，如果下文没有显示著名也应该属于这种情况）。
JobID jobId = jobSubmitClient.getNewJobId();
下面是JobTracker.getNewJobId的具体实现：
publicsynchronized JobID getNewJobId() throws IOException {
returnnew JobID(getTrackerIdentifier(), nextJobId++);
}
获得JobID后，将该JobID与上面的stagingRootDir组合就构成了Job文件的具体存放地址的构建。进行这些相关工作后，JobClient将相关的文件存储到HDFS当中。