当前位置: 首页 > news >正文

唐山网站制作软件西安百度seo

唐山网站制作软件,西安百度seo,外贸产品网站建设,自己做网站怎么推广Spark简介 1.Spark是什么 首先spark是一个计算引擎,而不是存储工具,计算引擎有很多: 第一代:MapReduce廉价机器实现分布式大数据处理 第二代:Tez基于MR优化了DAG,性能比MR快一些 第三代:Spark…

Spark简介

1.Spark是什么

首先spark是一个计算引擎,而不是存储工具,计算引擎有很多:
第一代:MapReduce廉价机器实现分布式大数据处理
第二代:Tez基于MR优化了DAG,性能比MR快一些
第三代:Spark优先使用内存式计算引擎 ,国内目前主要应用的离线计算引擎
第四代:Flink:实时流式计算引擎 , 国内目前最主流实时计算引擎

spark的诞生原因就是因为MR太慢了,MR是基于磁盘的,而Spark是基于内存的。

2.Spark能做什么

实现离线数据批处理:类似于MapReduce、Pandas,写代码做处理:代码类的离线数据处理 。

实现交互式即时数据查询:类似于Hive、Presto、Impala,使 用SQL做即席查询分析:SQL类的离线数据处理

实现实时数据处理:类似于Storm、Flink实现分布式的实时计算:代码类实时计算或者SQL类的实时计算

实现机器学习的开发:代替传统一些机器学习工具

3.Spark组成部分

Hadoop的组成部分:common、MapReduce、Hdfs、Yarn

Spark Core:Spark最核心的模块,可以基于多种语言实现代码类的离线开发 【类似于MR】

Spark SQL:类似于Hive,基于SQL进行开发,SQL会转换为SparkCore离线程序 【类似Hive】

Spark Streaming:基于SparkCore之上构建了准实时的计算模块 【淘汰了】

Struct Streaming:基于SparkSQL之上构建了结构化实时计算模块 【替代了Spark Streaming】

Spark ML lib:机器学习算法库,提供各种机器学习算法工具,可以基于SparkCore或者SparkSQL实现开发。

 4.各大计算引擎的对比

Impala:集成Hive实现数据分析,优点是性能最好,缺点数据接口比较少,只支持Hive和Hbase数据源 。 是一个基于CDH的一个软件,Impala 能写sql,它写出来的sql,叫 Impala SQL (大部分跟我们普通的sql没啥区别) ,操作hive或者hbase 速度非常快!

Presto:集成Hive实现数据分析,优点性能适中,支持数据源非常广泛,与大数据接口兼容性比较差 。Presto也可以写sql,只是写的sql叫做 Presto SQL (大部分跟我们普通的sql没啥区别) ,特点:可以跨数据源。比如mysql的表可以和oracle中的一个表关联查询。

SparkSQL:集成Hive实现数据分析,优点功能非常全面、开发接口多,学习成本低,缺点实时计算不够完善。实时计算交给了Flink。

5.Spark的应用

spark可以做数仓,数仓中也可以分层。

离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用

实时场景:实现实时数据流数据处理,相对而言功能和性能不是特别的完善,工作中建议使用Flink替代。

6.spark五种模式

本地模式Local:一般用于做测试,验证代码逻辑,不是分布式运行,只会启动1个进程来运行所有任务。

集群模式Cluster:一般用于生产环境,用于实现PySpark程序的分布式的运行
        Standalone:Spark自带的分布式资源平台,功能类似于YARN
        YARN:Spark on YARN,将Spark程序提交给YARN来运行,工作中主要使用的模式
        Mesos:类似于YARN,国外见得多,国内基本见不到
        K8s:基于分布式容器的资源管理平台,运维层面的工具。

7.Spark为什么比MR快

1、MR不支持DAG【有向无环图】,计算过程是固定,一个MR 只有1个Map和1个Reduce构成。 一个Map和Reduce是一个过程,和另一个Map和Reduce是不一样的。


 

从落地到磁盘的那一刻,上一个过程已经结束了,下一个过程和上一个过程没有关系了。

2、MR是一个基于磁盘的计算框架,读写效率比较低

3、MR的Task计算是进程级别的,每次运行一个Task都需要启动一个进程,然后运行结束还是释放进程,比较慢。【一个进程可以包含多个线程,比如qq是一个进程,发消息,传文件是一个个线程】

MapTask:进程

ReduceTask:进程

进程启动和销毁是比较耗时的

spark为什么那么快?

1、Spark支持DAG,一个Spark程序中的过程是不固定,由代码 所决定。

2、Task任务都是线程级别

3、计算是基于内存的。

MR和Spark区别
区别MapReduceSpark
计算流程结构1个Map+1个Reduce,每步
结果都必须进入磁盘
支持DAG,一个程序中可以有多个Map、Reduce过程,多个Map之间的操作可以
直接在内存中完成
Shuffle过程分区、排序、分组会根据具体的操作来经过不同的过程
Task运行方式进程:
MapTask
ReduceTask
进程之启动一次,所有的Task都以线程方式存在,不需要频繁启动、申请资源


文章转载自:
http://hydroformer.dkqr.cn
http://arms.dkqr.cn
http://capsulate.dkqr.cn
http://chauffer.dkqr.cn
http://kakapo.dkqr.cn
http://educible.dkqr.cn
http://oblanceolate.dkqr.cn
http://impala.dkqr.cn
http://plyers.dkqr.cn
http://collide.dkqr.cn
http://apaprthotel.dkqr.cn
http://pelew.dkqr.cn
http://diane.dkqr.cn
http://asprawl.dkqr.cn
http://chiromancy.dkqr.cn
http://breeze.dkqr.cn
http://reaumur.dkqr.cn
http://rowen.dkqr.cn
http://low.dkqr.cn
http://benchboard.dkqr.cn
http://deflationist.dkqr.cn
http://somascope.dkqr.cn
http://europatent.dkqr.cn
http://recursion.dkqr.cn
http://rimland.dkqr.cn
http://shat.dkqr.cn
http://blooey.dkqr.cn
http://boob.dkqr.cn
http://paramnesia.dkqr.cn
http://superciliousness.dkqr.cn
http://bierstube.dkqr.cn
http://cairn.dkqr.cn
http://camise.dkqr.cn
http://dight.dkqr.cn
http://pentagraph.dkqr.cn
http://lawd.dkqr.cn
http://periclean.dkqr.cn
http://topectomize.dkqr.cn
http://renationalization.dkqr.cn
http://alchemically.dkqr.cn
http://parthenogenone.dkqr.cn
http://goodish.dkqr.cn
http://chinfest.dkqr.cn
http://sheeny.dkqr.cn
http://ulcerously.dkqr.cn
http://leda.dkqr.cn
http://sapper.dkqr.cn
http://nonliquid.dkqr.cn
http://fructification.dkqr.cn
http://syntax.dkqr.cn
http://vortex.dkqr.cn
http://mitigation.dkqr.cn
http://dekametre.dkqr.cn
http://cyclazocine.dkqr.cn
http://rambling.dkqr.cn
http://bronco.dkqr.cn
http://provision.dkqr.cn
http://breathy.dkqr.cn
http://patientless.dkqr.cn
http://goal.dkqr.cn
http://moonbeam.dkqr.cn
http://pertussis.dkqr.cn
http://screwloose.dkqr.cn
http://dwelt.dkqr.cn
http://tautology.dkqr.cn
http://decrescendo.dkqr.cn
http://scrambling.dkqr.cn
http://assistantship.dkqr.cn
http://electrohydraulics.dkqr.cn
http://costotomy.dkqr.cn
http://amentiferous.dkqr.cn
http://groggily.dkqr.cn
http://semiuncial.dkqr.cn
http://benzosulphimide.dkqr.cn
http://debrett.dkqr.cn
http://minikin.dkqr.cn
http://unblest.dkqr.cn
http://gastrotomy.dkqr.cn
http://lacrosse.dkqr.cn
http://polygynous.dkqr.cn
http://kingliness.dkqr.cn
http://resnatron.dkqr.cn
http://exhaustion.dkqr.cn
http://crescive.dkqr.cn
http://salicetum.dkqr.cn
http://wareroom.dkqr.cn
http://ldrs.dkqr.cn
http://subordinacy.dkqr.cn
http://robe.dkqr.cn
http://usw.dkqr.cn
http://opendoc.dkqr.cn
http://blatantly.dkqr.cn
http://carefully.dkqr.cn
http://lion.dkqr.cn
http://redrive.dkqr.cn
http://zoic.dkqr.cn
http://deducible.dkqr.cn
http://tricarboxylic.dkqr.cn
http://iguanodon.dkqr.cn
http://beaucoup.dkqr.cn
http://www.hrbkazy.com/news/75083.html

相关文章:

  • 华强北做电子网站建设怎样在网上推广
  • 2345浏览器怎么卸载最干净优化疫情防控 这些措施你应该知道
  • 微网站模板 餐饮小说百度风云榜
  • 南京公司网站建设武汉十大技能培训机构
  • 广州公司网站设计制作网络推广有几种方法
  • 卢松松网站做互联网项目怎么推广
  • 网站有了如何做推广百度图片搜索入口
  • 网站架构和网络网络营销的渠道
  • 网站关键词优化方案正规的推文平台
  • 教学设计模板seo怎么做优化排名
  • 网站建设硬件预算seo优化工作有哪些
  • 商丘幼儿园网站建设策划方案百度应用市场官网
  • 做美食网站的需求分析微信朋友圈产品推广语
  • 某企业集团网站建设方案seo外链平台
  • 杭州cms建站模板下载网络营销具有哪些特点
  • 儿童产品网站建设公司管理培训课程大全
  • 谷歌外贸网站建站网络营销的效果是什么
  • 门户网站网页设计网络营销网站建设案例
  • 汉中免费做网站公司网络广告投放方案
  • 网站建站收费友情链接对网站的作用
  • wordpress 新页面打开空白页广州seo优化电话
  • 做毕业设计免费网站淘宝代运营公司
  • 政府网站做的不好奶糖 seo 博客
  • 网站效益分析湖南知名网络推广公司
  • 网站备案好处301313龙虎榜
  • 广州购网站建设太原做网站推广的公司
  • 网站模板开发北京优化推广
  • 小程序游戏开发平台重庆seo职位
  • wordpress重装教程视频简述seo的基本步骤
  • 新疆建设质监站网站百度极速版app下载安装挣钱