spark 大数据

作者: 彐3991656
来源: 51数据库
2020-09-21

Spark，是一种"One Stackto rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。Spark除了一站式的特点之外，另外一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍！现在已经有很多大公司正在生产环境下深度地使用Spark作为大数据的计算框架，包括eBay、Yahoo!、BAT、网易、京东、华为、大众点评、优酷土豆、搜狗等等。
超强的通用性
Spark提供了Spark RDD、Spark SQL、SparkStreaming、Spark MLlib、Spark GraphX等技术组件，可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。
东时大数据学习java语言基础、java面向对象、Java框架、web前端、Linux入门、hadoop开发、Spark等内容。

　　Spark是一个为速度和通用目标设计的集群计算平台。
从速度的角度看，Spark从流行的MapReduce模型继承而来，可以更有效地支持多种类型的计算，如交互式查询和流处理。速度在大数据集的处理中非常重要，它可以决定用户可以交互式地处理数据，还是等几分钟甚至几小时。Spark为速度提供的一个重要特性是其可以在内存中运行计算，即使对基于磁盘的复杂应用，Spark依然比MapReduce更有效。
从通用性来说，Spark可以处理之前需要多个独立的分布式系统来处理的任务，这些任务包括批处理应用、交互式算法、交互式查询和数据流。通过用同一个引擎支持这些任务，Spark使得合并不同的处理类型变得简单，而合并操作在生产数据分析中频繁使用。而且，Spark降低了维护不同工具的管理负担。

　　首先，hadoop和apache spark两者都是大数据框架，但是各自存在的目的不尽相同。hadoop实质上更多是一个分布式数据基础设施:
它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。
同时，hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。
两者可合可分
hadoop除了提供为大家所共识的hdfs分布式数据存储功能之外，还提供了叫做mapreduce的数据处理功能。所以这里我们完全可以抛开spark，使用hadoop自身的mapreduce来完成数据的处理。
相反，spark也不是非要依附在hadoop身上才能生存。但如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择hadoop的hdfs,也可以选择其他的基于云的数据系统平台。但spark默认来说还是被用在hadoop上面的，毕竟，大家都认为它们的结合是最好的。