用户登录
用户注册

分享至

spark rdd

  • 作者: 无情小疯子
  • 来源: 51数据库
  • 2020-09-21
可以当做一个容器, 比如说 List这样的容器, 是存放数据的, 然后可以通过 rdd 的api对数据进行计算, 还有数据在rdd中是有好多个partition的, 这样可以将一个rdd的数据分成好多个partition 来进行并行计算。



  rdd这种对象都是spark的api,哪会有啥不同?
说不同的话,应该是在本地跑spark分析任务和集群跑spark分析任务会有一些差别。在本地跑时处理大文件比较费劲,可能容易内存溢出;集群跑时需要注意占内存的参数需要广播变量,否则影响集群分析的性能。
软件
前端设计
程序设计
Java相关