大数据中的Spark指的是什么？

班德瑞2023-01-31 21

Spark是一种通用的大数据计算框架，和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架，而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用于构建大型的、低延迟的数据分析应用程序。

Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面，则依赖于SparkStreaming的批处理能力，吞吐量大。不过相比Storm，SparkStreaming并不能做到真正的实时。

Spark使用强大的函数式语言Scala开发，方便简单。同时，它还提供了对Python、Java和R语言的支持。

作为大数据计算框架MapReduce的继任者，Spark具备以下优势特性。

1，高效性

不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。

2，易用性

不同于MapReduce仅支持Map和Reduce两种编程算子，Spark提供了超过80种不同的Transformation和Action算子，如map,reduce,filter,groupByKey,sortByKey,foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。

3，通用性

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。

4，兼容性

Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。

n.火花火星电火花(指品质或感情)一星，丝毫，一丁点。

averysmallburningpieceofmaterialthatisproducedbysththatisburningorbyhittingtwohardsubstancestogether。

Asparkisatinybrightpieceofburningmaterialthatfliesupfromsomethingthatisburning.

Asparkofaqualityorfeeling,especiallyadesirableone,isasmallbutnoticeableamountofit.一站式出国留学攻略 http://www.offercoming.com

转载请注明原文地址:https://juke.outofmemory.cn/read/2843544.html

00 生成海报

大数据中的Spark指的是什么？

数据

实时

框架

内存

离线

STEAM ID是什么鬼

三都县属于哪个市?