Spark的认识

发布时间:2022-11-11 06:29 阅读次数:
本文摘要:Spark的认识 Spark是一种快速、通用、可扩展的大数据阐发引擎,Spark生态系统是一个包罗多个子项目的荟萃,个中包罗SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计较的大数据并行计较框架,提高了在大数据情况下数据处置惩罚的及时性 , 同时包管了高容错性合高可伸缩性,允许用将Spark部署在大量廉价硬件之上,形成集群。

J9九游会首页登录

Spark的认识 Spark是一种快速、通用、可扩展的大数据阐发引擎,Spark生态系统是一个包罗多个子项目的荟萃,个中包罗SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计较的大数据并行计较框架,提高了在大数据情况下数据处置惩罚的及时性 , 同时包管了高容错性合高可伸缩性,允许用将Spark部署在大量廉价硬件之上,形成集群。Spark成长史 2009年降生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。

Spark的特点 1.快: 与hadoop的MapReduce比拟,Spark基于内存的运算要快100倍以上。Spark实现高效的DAG执行引擎,可以通过基于内存来高效处置惩罚数据流。

2.易用:Spark支持Java,Python和Scala的API,还支持凌驾80种高级算法,使用户可以快速构建差别的应用。3.通用:Spark提供了统一的解决方案。

可以用于批处置惩罚,交互式查询,及时流处置惩罚,呆板进修和图计较。4.兼容性:Spark可以很是利便地与其他的开源产物举行融合。Spark可以运行在Hadoop,Mesos,Kubernets,standalone或者云上。

RDD概述 RDD是一个弹性的漫衍式数据集,是Spark中最根基的数据抽象,它代表一个不行变,可分区,内里的元素可并行计较的荟萃。RDD特性 1.A list of partitions一个分区列表,RDD中的数据都存在一个分区列内外面。

2.A function for computing each split感化在每一个分区中的函数。3.A list of dependencies on other RDDs一个RDD依赖于其他多个RDD,这个点很重要,RDD的容错机制就是依据这个特性而来的。4. Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)可选的,针对于kv类型的RDD才具有这个特性,感化是决定了数据的来历以及数据处置惩罚后的去向。

5.Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)可选项,数据当地性,数据位置最优。返回,检察更多。

J9九游会首页登录


本文关键词:Spark,的,认识,Spark,的,认识,是,J9九游会首页登录,一种,快速,、

本文来源:J9九游会首页登录-www.yanwunetwork.com

在线客服 联系方式 二维码

电话

0939-752459858

扫一扫,关注我们