用户登录
用户注册

分享至

spark学习路线

  • 作者: 我就是无处不在的老王他爹
  • 来源: 51数据库
  • 2020-09-26
可以读读Spark相关的书籍,不过这类书籍确实不是很多。Spark技术相对Hadoop,资料比较少。很多都是国外的资料,中文版的少。
不知道你的基础,建议还是参加课程学习,更快速。比自己摸索强。推荐Spark亚太研究院的《18小时内掌握Spark》这个课程。这是个入门级的课程



  1、首先,搭环境一定是必须的啦,答主当时搭环境,前前后后就折腾了一个星期,linux,linux不懂,各种奇怪的命令,当时折腾linux命令的时候心中一万只草泥马奔腾而过,权限的各种奇奇怪怪的问题,跟着网上的教程来做还会出错更是伤心。但是经历这个初始的环境折腾之后,你最基础的linux命令至少会了,环境搭建过程中的各种配置文件坑爹问题,经历你的各种搜索之后,你也可以大概知道各种配置文件的作用,这有助于你后面程序出错的时候查找错误。

2、环境搭建好之后,因为项目的关系,你开始要编程了,但是spark啥也不懂怎么办啊。
没关系,先搭好开发环境。搭好后得看你的项目需求了。根据你的项目需求来思考学习方向。

3、我的项目需求大概是,从mongodb读取数据,进行简单的计算之后丢回mongodb里去。
3.1 先搜索spark如何连接mongodb,根据我当时的情况,我记得使用某度搜索,关键词 spark和mongodb基本是没啥有用的东西的,所以,这个时候,题主需要学会科学上网,这种比较新的东西,靠某度是没啥用的,该飞越的时候还是要飞越的,mongo-hadoop-core。
3.2 连接好了之后,不懂 scala怎么办,这个根本不是问题,首先,spark基本是rdd之间的转化操作,就map,split等几个东西而已,剩下的只要大概懂最基本的语法就可以了(默认题主懂c语言),我们暂时不需要scala高级功能。你要是考我语法特性啥的,答主只能说,臣妾做不到啊。
3.3 项目新出了一个坑爹要求啊,要求将计算好的数据同时送到mysql啊,简直坑爹有木有,有木有。抱怨归抱怨,程序还是要好好做的。当时国内某度依然搜索不到任何资料,又飞越了长城,发现spark的新版本有个新功能,insertintojdbc,结果这货也是个坑啊,哎,发现它不会自己关闭,插入数据较多的之后,mysql连接池不够用啊,而且这货根据最新版spark官方文档,已经被废弃了,因此自己写了一个使用scala连接到mysql的类(和java连接mysql差不多)。

4、是的,你没猜错,我又遇到坑问题了。这个问题已经折腾两三天了,暂时还没解决,希望各位前辈,能够指点一点。
软件
前端设计
程序设计
Java相关