hadoop 3.0比

作者: 楠帅
来源: 51数据库
2020-10-03

1. Hadoop 3.0简介

Hadoop 2.0是基于JDK 1.7开发的，而JDK 1.7在2015年4月已停止更新，这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本，而这正是hadoop 3.0。

Hadoop 3.0的alpha版预计今年夏天发布，GA版本11月或12月发布。

Hadoop 3.0中引入了一些重要的功能和优化，包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和性能方面，对hadoop内核进行了多项重大改进，主要包括：

2.1 Hadoop Common
（1）精简Hadoop内核，包括剔除过期的API和实现，将默认组件实现替换成最高效的实现（比如将FileOutputCommitter缺省实现换为v2版本，废除hftp转由webhdfs替代，移除Hadoop子实现序列化库org.apache.hadoop.Records
（2）Classpath isolation以防止不同版本jar包冲突，比如google Guava在混合使用Hadoop、HBase和Spark时，很容易产生冲突。（https://issues.apache.org/jira/browse/HADOOP-11656）
（3）Shell脚本重构。 Hadoop 3.0对Hadoop的管理脚本进行了重构，修复了大量bug，增加了新特性，支持动态命令等。https://issues.apache.org/jira/browse/HADOOP-9902

2.2 Hadoop HDFS

（1）HDFS支持数据的擦除编码，这使得HDFS在不降低可靠性的前提下，节省一半存储空间。（https://issues.apache.org/jira/browse/HDFS-7285）
（2）多NameNode支持，即支持一个集群中，一个active、多个standby namenode部署方式。注：多ResourceManager特性在hadoop 2.0中已经支持。（https://issues.apache.org/jira/browse/HDFS-6440）

2.3 Hadoop MapReduce

（1）Tasknative优化。为MapReduce增加了C/C++的map output collector实现（包括Spill，Sort和IFile等），通过作业级别参数调整就可切换到该实现上。对于shuffle密集型应用，其性能可提高约30%。（https://issues.apache.org/jira/browse/MAPREDUCE-2841）
（2）MapReduce内存参数自动推断。在Hadoop 2.0中，为MapReduce作业设置内存参数非常繁琐，涉及到两个参数：mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts，一旦设置不合理，则会使得内存资源浪费严重，比如将前者设置为4096MB，但后者却是“-Xmx2g”，则剩余2g实际上无法让java heap使用到。（https://issues.apache.org/jira/browse/MAPREDUCE-5785）

2.4 Hadoop YARN

（1）基于cgroup的内存隔离和IO Disk隔离（https://issues.apache.org/jira/browse/YARN-2619）
（2）用curator实现RM leader选举（https://issues.apache.org/jira/browse/YARN-4438）
（3）containerresizing（https://issues.apache.org/jira/browse/YARN-1197）
（4）Timelineserver next generation （https://issues.apache.org/jira/browse/YARN-2928）

3. Hadoop3.0总结

Hadoop 3.0的alpha版预计今年夏天发布，GA版本11月或12月发布。

Hadoop 3.0中引入了一些重要的功能和优化，包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

　　1. hadoop 3.0简介

hadoop 2.0是基于jdk 1.7开发的，而jdk 1.7在2015年4月已停止更新，这直接迫使hadoop社区基于jdk 1.8重新发布一个新的hadoop版本，而这正是hadoop 3.0。

hadoop 3.0的alpha版预计今年夏天发布，ga版本11月或12月发布。

hadoop 3.0中引入了一些重要的功能和优化，包括hdfs 可擦除编码、多namenode支持、mr native task优化、yarn基于cgroup的内存和磁盘io隔离、yarn container resizing等。

2. hadoop 3.0新特性

hadoop 3.0在功能和性能方面，对hadoop内核进行了多项重大改进，主要包括：

2.1 hadoop common
（1）精简hadoop内核，包括剔除过期的api和实现，将默认组件实现替换成最高效的实现（比如将fileoutputcommitter缺省实现换为v2版本，废除hftp转由webhdfs替代，移除hadoop子实现序列化库org.apache.hadoop.records
（2）classpath isolation以防止不同版本jar包冲突，比如google guava在混合使用hadoop、hbase和spark时，很容易产生冲突。