mapreduce log

作者: 小乖乖喵
来源: 51数据库
2020-10-02

其实网上就有，可以借鉴董西成的博客，下面是内容：

Hadoop HDFS只有服务日志，与Hadoop MapReduce的服务日志类似；
Hadoop MapReduce日志分为两部分，一部分是服务日志，一部分是作业日志，具体介绍如下：
1. Hadoop 1.x版本
Hadoop 1.x中MapReduce的服务日志包括JobTracker日志和各个TaskTracker日志，他们的日志位置如下（Web界面也可查看其日志，地址http://主节点IP:50030）：
JobTracker：在JobTracker安装节点上，默认位置是
${hadoop.log.dir}/logs/*-jobtracker-*.log，该文件每天生成一个，旧的日志后缀是日期，当天的日志文件后缀是“.log”，其中${hadoop.log.dir}默认值是hadoop安装目录，即${HADOOP_HOME}。
TaskTracker：在各个TaskTracker安装节点上，默认位置是
$HADOOP_HOME/logs/*-tasktracker-*.log，该文件每天生成一个，旧的日志后面会跟一个日志，当天的日志文件后缀是“.log”
作业日志包括jobhistory日志和task日志两部分，其中，jobhistory日志是作业运行日志，包括作业启动时间、结束时间，每个任务的启动时间、结束时间，各种counter信息等，用户可以从这个日志中解析出作业运行的各种信息，是非常有价值的信息。默认存放位置是JobTracker所在节点的${hadoop.log.dir}/history目录下，可通过参数hadoop.job.history.location配置。每个task日志存放在task运行节点上，存放位置是${hadoop.log.dir}/userlogs//目录下，每个task包含三个日志文件，分别是stdout、stderr和syslog，其中，stdout是通过标准输出打印出来的日志，比如System.out.println，注意，程序中通过标准输出打印的日志并不会直接显示在终端上，而是保存在这个文件中，syslog是通过log4j打印的日志，通常这个日志中包含的有用信息最多，也是错误调试中最关键的参考日志。

　　the /usr/bin/yarn script sets up the execution environment so that all of the yarn commands can be run. the /usr/bin/hadoop script isn't quite as concerned about yarn specific functionality. however, if you have your cluster set up to use yarn as the default implementation of mapreduce (mrv2), then hadoop jar will probably act the same as yarn jar for a mapreduce job.
either way you're probably fine, but you can always check the resource manager (or job tracker) web interface to see how your job is distributed across the cluster (whether it's a single node cluster or not)
如果你设置yarn为mapreduce的默认资源调度平台，那么两个命令是一样的