spark执行流程

作者: 木头1979
来源: 51数据库
2020-09-28

本文前提是已经正确安装好scala,sbt以及spark了简述将程序挂载到集群上运行的步骤：
　　1、构建sbt标准的项目工程结构：SBT项目工程结构图其中：~/build.sbt文件用来配置项目的基本信息（项目名、组织名、项目版本、使用的scala版本或者再次配置些项目所需的依赖包）；project/build.properties文件配置你要使用什么版本的sbt对项目操作；project/plugins.sbt文件是给项目添加所需的插件；project/Build.scala文件是对项目进行些复杂的高级配置；详细的sbt安装配置实用参见博文：
　　2、到相应目录下编写程序，spark程序必须要创建一个SparkContext实例。SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")
　　3、sbt compile命令编译程序无错后，sbt package命令将程序打包。默认打包的jar文件存放路径为：项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
　　4、将打包好的jar问价添加到SPAK_CLASSPATH中（在linux中根据作用范围的不同有多种更改环境变量的方式，这里只说我的配置方式：spark根目录下的conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx）
　　5、配置好环境变量后就可以在spark的根目录下使用./run脚本运行你的程序了例如：./run spark.examples.SparkPi spark://masterIP:port注意，如果程序涉及IO操作起默认路径为SPARK_HOME；至于如何修改这个路径，有待研究
转载，仅供参考。

　　几个基本概念：
（1）job：包含多个task组成的并行计算，往往由action催生。
（2）stage：job的调度单位。
（3）task：被送到某个executor上的工作单元。
（4）taskset：一组关联的，相互之间没有shuffle依赖关系的任务组成的任务集。
一个应用程序由一个driver program和多个job构成。一个job由多个stage组成。一个stage由多个没有shuffle关系的task组成。

spark应用程序的运行架构：

（1）简单的说：
由driver向集群申请资源，集群分配资源，启动executor。driver将spark应用程序的代码和文件传送给executor。executor上运行task，运行完之后将结果返回给driver或者写入外界。
（2）复杂点说：
提交应用程序，构建sparkcontext，构建dag图，提交给scheduler进行解析，解析成一个个stage，提交给集群，由集群任务管理器进行调度，集群启动spark executor。driver把代码和文件传给executor。executor进行各种运算完成task任务。driver上的block tracker记录executor在各个节点上产生的数据块。task运行完之后，将数据写入hdfs上或者其他类型数据库里。
（3）全面点说：
spark应用程序进行各种transformation的计算，最后通过action触发job。提交之后首先通过sparkcontext根据rdd的依赖关系构建dag图，dag图提交给dagscheduler进行解析，解析时是以shuffle为边界，反向解析，构建stage，stage之间也有依赖关系。这个过程就是对dag图进行解析划分stage，并且计算出各个stage之间的依赖关系。然后将一个个taskset提交给底层调度器，在spark中是提交给taskscheduler处理，生成taskset manager，最后提交给executor进行计算，executor多线程计算，计算完反馈给tasksetmanager，再反馈给taskscheduler，然后再反馈回dagscheduler。全部运行完之后写入数据。