Windows Linux/Shell Nginx UNIX

MySQL Ms SQL Server MS Access MS DOS命令 Oracle SQLite MongoDB Redis SSDB Memcached Cassandra Hibernate MariaDB MyBatis Slick Spark Kubernetes neo4j TiDB PostgreSQL InfluxDB Istio IoTDB

用户登录

还没有账号?立即注册

用户注册

点击换图

spark rdd

作者: 无情小疯子
来源: 51数据库
2020-09-21

可以当做一个容器，比如说 List这样的容器，是存放数据的，然后可以通过 rdd 的api对数据进行计算，还有数据在rdd中是有好多个partition的，这样可以将一个rdd的数据分成好多个partition 来进行并行计算。

　　rdd这种对象都是spark的api，哪会有啥不同？
说不同的话，应该是在本地跑spark分析任务和集群跑spark分析任务会有一些差别。在本地跑时处理大文件比较费劲，可能容易内存溢出；集群跑时需要注意占内存的参数需要广播变量，否则影响集群分析的性能。

推荐阅读

热点文章

spark快速大数据分析 pdf

spark快速大数据分析 pdf

spark读取hdfs文件

spark遥控器对频

SPARK是什么牌子

spark一键短片

如何安装spark

大疆spark和mavic

spark计算框架

大疆无人机spark视频

软件

前端设计

程序设计

Java相关