mapreduce 日志分析

作者: 万人齐跪爹爹万岁
来源: 51数据库
2020-10-03

其实网上就有，可以借鉴董西成的博客，下面是内容：

Hadoop HDFS只有服务日志e68a84e8a2ad3231313335323631343130323136353331333339663366，与Hadoop MapReduce的服务日志类似；
Hadoop MapReduce日志分为两部分，一部分是服务日志，一部分是作业日志，具体介绍如下：
1. Hadoop 1.x版本
Hadoop 1.x中MapReduce的服务日志包括JobTracker日志和各个TaskTracker日志，他们的日志位置如下（Web界面也可查看其日志，地址http://主节点IP:50030）：
JobTracker：在JobTracker安装节点上，默认位置是
${hadoop.log.dir}/logs/*-jobtracker-*.log，该文件每天生成一个，旧的日志后缀是日期，当天的日志文件后缀是“.log”，其中${hadoop.log.dir}默认值是hadoop安装目录，即${HADOOP_HOME}。
TaskTracker：在各个TaskTracker安装节点上，默认位置是
$HADOOP_HOME/logs/*-tasktracker-*.log，该文件每天生成一个，旧的日志后面会跟一个日志，当天的日志文件后缀是“.log”
作业日志包括jobhistory日志和task日志两部分，其中，jobhistory日志是作业运行日志，包括作业启动时间、结束时间，每个任务的启动时间、结束时间，各种counter信息等，用户可以从这个日志中解析出作业运行的各种信息，是非常有价值的信息。默认存放位置是JobTracker所在节点的${hadoop.log.dir}/history目录下，可通过参数hadoop.job.history.location配置。每个task日志存放在task运行节点上，存放位置是${hadoop.log.dir}/userlogs/<jobid>/<attempt-id>目录下，每个task包含三个日志文件，分别是stdout、stderr和syslog，其中，stdout是通过标准输出打印出来的日志，比如System.out.println，注意，程序中通过标准输出打印的日志并不会直接显示在终端上，而是保存在这个文件中，syslog是通过log4j打印的日志，通常这个日志中包含的有用信息最多，也是错误调试中最关键的参考日志。
2. Hadoop 2.x版本
Hadoop 2.x中YARN系统的服务日志包括ResourceManager日志和各个NodeManager日志，他们的日志位置如下：
ResourceManager日志存放位置是Hadoop安装目录下的logs目录下的yarn-*-resourcemanager-*.log
NodeManager日志存放位置是各个NodeManager节点上hadoop安装目录下的logs目录下的yarn-*-nodemanager-*.log
应用程序日志包括jobhistory日志和Container日志，其中，jobhistory日志是应用程序运行日志，包括应用程序启动时间、结束时间，每个任务的启动时间、结束时间，各种counter信息等。
Container日志包含ApplicationMaster日志和普通Task日志，它们均存放在Hadoop安装目录下的userlogs目录中的application_xxx目录下，其中ApplicationMaster日志目录名称为container_xxx_000001，普通task日志目录名称则为container_xxx_000002，container_xxx_000003，….，同Hadoop 1.x一样，每个目录下包含三个日志文件：stdout、stderr和syslog，且具体含义是一样的。

　　用hadoop也算有一段时间了，一直没有注意过hadoop运行过程中，产生的数据日志，比如说system打印的日志，或者是log4j，slf4j等记录的日志，存放在哪里，日志信息的重要性，在这里散仙就不用多说了，调试任何程序基本上都得需要分析日志。
hadoop的日志主要是mapreduce程序，运行过程中，产生的一些数据日志，除了系统的日志外，还包含一些我们自己在测试时候，或者线上环境输出的日志，这部分日志通常会被放在userlogs这个文件夹下面，我们可以在mapred-site.xml里面配置运行日志的输出目录，散仙测试文件内容如下:

mapred.job.tracker
192.168.75.130:9001

mapred.local.dir
/root/hadoop1.2/mylogs

配置好，日志目录后，我们就可以把这个配置文件，分发到各个节点上，然后启动hadoop。
下面我们看来下在eclipse环境中如何调试，散仙在setup，map和reduce方法中，分别使用system打印了一些数据，当我们使用local方式跑mr程序时候，日志并不会被记录下来，而是直接会在控制台打印，散仙的测试代码如下：
package com.qin.testdistributed;

import java.io.file;
import java.io.filereader;
import java.io.ioexception;
import java.net.uri;
import java.util.scanner;

import org.apache.hadoop.conf.configuration;
import org.apache.hadoop.filecache.distributedcache;
import org.apache.hadoop.fs.fsdatainputstream;
import org.apache.hadoop.fs.filesystem;
import org.apache.hadoop.fs.path;
import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.io.longwritable;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapred.jobconf;
import org.apache.hadoop.mapreduce.job;
import org.apache.hadoop.mapreduce.mapper;
import org.apache.hadoop.mapreduce.reducer;
import org.apache.hadoop.mapreduce.lib.db.dbconfiguration;
import org.apache.hadoop.mapreduce.lib.input.fileinputformat;
import org.apache.hadoop.mapreduce.lib.output.fileoutputformat;
import org.apache.log4j.pattern.logevent;

import org.slf4j.logger;
import org.slf4j.loggerfactory;

import com.qin.operadb.writemapdb;

/**
* 测试hadoop的全局共享文件
* 使用distributedcached
*
* 大数据技术交流群： 37693216
* @author qindongliang
*
* ***/
public class testdistributed {

private static logger logger=loggerfactory.getlogger(testdistributed.class);

private static class filemapper extends mapper{

path path[]=null;

/**
* map函数前调用
*
* */
@override
protected void setup(context context)
throws ioexception, interruptedexception {
logger.info("开始启动setup了哈哈哈哈");
// system.out.println("运行了.........");
configuration conf=context.getconfiguration();
path=distributedcache.getlocalcachefiles(conf);
system.out.println("获取的路径是： "+path[0].tostring());
// filesystem fs = filesystem.get(conf);
filesystem fsopen= filesystem.getlocal(conf);
// fsdatainputstream in = fsopen.open(path[0]);
// system.out.println(in.readline());
// for(path tmprefpath : path) {
// if(tmprefpath.tostring().indexof("ref.png") != -1) {
// in = reffs.open(tmprefpath);
// break;
// }
// }

// filereader reader=new filereader("file://"+path[0].tostring());
// file f=new file("file://"+path[0].tostring());
// fsdatainputstream in=fs.open(new path(path[0].tostring()));
// scanner scan=new scanner(in);
// while(scan.hasnext()){
// system.out.println(thread.currentthread().getname()+"扫描的内容: "+scan.next());
// }
// scan.close();
//
// system.out.println("size: "+path.length);

}

@override
protected void map(longwritable key, text value,context context)
throws ioexception, interruptedexception {

// system.out.println("map aaa");
//logger.info("map里的任务");
system.out.println("map里输出了");
// logger.info();
context.write(new text(""), new intwritable(0));

}

@override
protected void cleanup(context context)
throws ioexception, interruptedexception {

logger.info("清空任务了。。。。。。");
}

}

private static class filereduce extends reducer{

@override
protected void reduce(object arg0, iterable

　　其实网上就有，可以借鉴董西成的博客，下面是内容：

Hadoop HDFS只有服务日志，与Hadoop MapReduce的服务日志类32313133353236313431303231363533e4b893e5b19e31333339663437似；
Hadoop MapReduce日志分为两部分，一部分是服务日志，一部分是作业日志，具体介绍如下：
1. Hadoop 1.x版本
Hadoop 1.x中MapReduce的服务日志包括JobTracker日志和各个TaskTracker日志，他们的日志位置如下（Web界面也可查看其日志，地址http://主节点IP:50030）：
JobTracker：在JobTracker安装节点上，默认位置是
${hadoop.log.dir}/logs/*-jobtracker-*.log，该文件每天生成一个，旧的日志后缀是日期，当天的日志文件后缀是“.log”，其中${hadoop.log.dir}默认值是hadoop安装目录，即${HADOOP_HOME}。
TaskTracker：在各个TaskTracker安装节点上，默认位置是
$HADOOP_HOME/logs/*-tasktracker-*.log，该文件每天生成一个，旧的日志后面会跟一个日志，当天的日志文件后缀是“.log”
作业日志包括jobhistory日志和task日志两部分，其中，jobhistory日志是作业运行日志，包括作业启动时间、结束时间，每个任务的启动时间、结束时间，各种counter信息等，用户可以从这个日志中解析出作业运行的各种信息，是非常有价值的信息。默认存放位置是JobTracker所在节点的${hadoop.log.dir}/history目录下，可通过参数hadoop.job.history.location配置。每个task日志存放在task运行节点上，存放位置是${hadoop.log.dir}/userlogs/<jobid>/<attempt-id>目录下，每个task包含三个日志文件，分别是stdout、stderr和syslog，其中，stdout是通过标准输出打印出来的日志，比如System.out.println，注意，程序中通过标准输出打印的日志并不会直接显示在终端上，而是保存在这个文件中，syslog是通过log4j打印的日志，通常这个日志中包含的有用信息最多，也是错误调试中最关键的参考日志。
2. Hadoop 2.x版本
Hadoop 2.x中YARN系统的服务日志包括ResourceManager日志和各个NodeManager日志，他们的日志位置如下：
ResourceManager日志存放位置是Hadoop安装目录下的logs目录下的yarn-*-resourcemanager-*.log
NodeManager日志存放位置是各个NodeManager节点上hadoop安装目录下的logs目录下的yarn-*-nodemanager-*.log
应用程序日志包括jobhistory日志和Container日志，其中，jobhistory日志是应用程序运行日志，包括应用程序启动时间、结束时间，每个任务的启动时间、结束时间，各种counter信息等。
Container日志包含ApplicationMaster日志和普通Task日志，它们均存放在Hadoop安装目录下的userlogs目录中的application_xxx目录下，其中ApplicationMaster日志目录名称为container_xxx_000001，普通task日志目录名称则为container_xxx_000002，container_xxx_000003，….，同Hadoop 1.x一样，每个目录下包含三个日志文件：stdout、stderr和syslog，且具体含义是一样的。