hive maven

作者: 多愁善感而初次等待的青春
来源: 51数据库
2020-10-03

所用的应用程序最后的提交都是由spark-submit完成的，其他程序的调用只是对spark-submit的参数进行设置后，调用spark-submit来完成应用程序的提交到集群的操作。

　　前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。
　　cloudera manager装好的spark,直接执行spark-shell进入命令行后，写入如下语句：
　　val hivecontext = new org.apache.spark.sql.hive.hivecontext(sc)

　　你会发现没法执行通过，因为cm装的原生的spark是不支持spark hql的，我们需要手动进行一些调整：
　　第一步，将编译好的包含hive的jar包上传到hdfs上配置的默认的spark的sharelib目录：/user/spark/share/lib

　　第二步：在你要运行spark-shell脚本的节点上的/opt/cloudera/parcels/cdh-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面，下载这个jar到这个目录：hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具体路径替换成你自己的）。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我们把这个软链接删除掉重新创建一个同名的软链接：ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar，指向我们刚下载下来的那个jar包，这个jar包会在启动spark-shell脚本时装载到driver program的classpath中去的，sparkcontext也是在driver中创建出来的，所以需要将我们编译的jar包替换掉原来的spark-assembly.jar包，这样在启动spark-shell的时候，包含hive的spark-assembly就被装载到classpath中去了。
　　第三步：在/opt/cloudera/parcels/cdh/lib/spark/conf/目录下面创建一个hive-site.xml。/opt/cloudera/parcels/cdh/lib/spark/conf目录是默认的spark的配置目录，当然你可以修改默认配置目录的位置。hive-site.xml内容如下：

　　

hive.metastore.local
false

hive.metastore.uris
thrift://n1:9083

hive.metastore.client.socket.timeout
300

hive.metastore.warehouse.dir
/user/hive/warehouse

这个应该大家都懂的，总要让spark找到hive的元数据在哪吧，于是就有了上面一些配置。

　　第四步：修改/opt/cloudera/parcels/cdh/lib/spark/conf/spark-defaults.conf，添加一个属性：spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。这个是让每个executor下载到本地然后装载到自己的classpath下面去的，主要是用在yarn-cluster模式。local模式由于driver和executor是同一个进程所以没关系。
　　以上完事之后，运行spark-shell,再输入:
　　val hivecontext = new org.apache.spark.sql.hive.hivecontext(sc)

　　应该就没问题了。我们再执行一个语句验证一下是不是连接的我们指定的hive元数据库：
　　hivecontext.sql("show tables").take(10) //取前十个表看看

　　最后要重点说明一下这里的第二步第三步和第四步，如果是yarn-cluster模式的话，应该替换掉集群所有节点的spark-assembly.jar集群所有节点的spark conf目录都需要添加hive-site.xml，每个节点spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。可以写个shell脚本来替换，不然手动一个一个节点去替换也是蛮累的。