当前位置: 首页 > news >正文

上海专业网站建设服务培训课程

上海专业网站建设服务,培训课程,素材网站,个人邮箱注册申请文章目录数据!数据!遇到的问题Hadoop的出现相较于其他系统的优势关系型数据库网格计算本文章属于Hadoop系列文章,分享Hadoop相关知识。后续文章中会继续分享Hadoop的组件、MapReduce、HDFS、Hbase、Flume、Pig、Spark、Hadoop集群管理系统以及…

文章目录

  • 数据!数据!
  • 遇到的问题
  • Hadoop的出现
  • 相较于其他系统的优势
    • 关系型数据库
    • 网格计算

本文章属于Hadoop系列文章,分享Hadoop相关知识。后续文章中会继续分享Hadoop的组件、MapReduce、HDFS、Hbase、Flume、Pig、Spark、Hadoop集群管理系统以及案例项目等。想学习大数据的同学希望可以点赞、收藏、持续关注不迷路。

在古时候,人们用牛来拉重物,当一头牛拉不动一根圆木时,人们从来没有考虑过要想方设法培育出一种更强壮的牛。同理,我们也不该想方设法打造什么超级计算机,而应该千方百计综合利用更多计算机来解决问题。

数据!数据!

在这里插入图片描述

我们生活在这个数据大爆炸的时代,很难估算全球的电子设备存储量。根据国际数据公司(IDC)曾经发布的报告,2013年统计出全球数据总量为4.4ZB,预测到2020年数据量将会达到44ZB,1ZB等于1000EB,等于1 000 000PB,等于大家所熟悉的10亿TB,这远远超过了全世界任意一块硬盘所能保存的数据量。

数据“洪流”有很多来源,以下面列出为例:

  • 纽约证交所每天产生的交易数据大约的4TB到5TB之间。
  • FaceBook存储的照片超过2400亿张,并以每月至少7PB的速度增长。
  • 互联网档案馆存储的数据约为18PB。
  • 瑞士日内瓦附近的大型强子对撞机每年产生数据越30PB。

还有其他大量的数据,比如作为物联网一部分的机器设备产生的日志、RFID读卡器、车载GPS等等。

组织或企业要想在未来取得成功,不仅需要管理好自己的数据,更需要从其他渠道获取有价值的信息。现在得益于开放的互联网,我们已经可以从各个地方获取到需要的数据,这是个好消息,但不幸的是,我们必须想方设法好好的存储和分析这些数据。

遇到的问题

我们遇到的问题很简单,在硬盘存储容量多年来不断提升的同时,硬盘数据读取的速度却没有与时俱进。1990年,一个普通的硬盘可以存储1370MB的数据,传输速度为4.4 MB/s,因此只需要5分钟就可以读完整个硬盘的数据。20年过去了,1TB的硬盘成为主流,但其数据传输速度约为100 MB/s,读完整个硬盘至少需要花费2.5个小时。

一个很简单减少读取时间的办法是同时从多个硬盘上读数据。试想,如果有100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到两分钟就可以读完所有数据。仅使用硬盘容量的1%似乎很浪费,但是我们可以存储100个数据集,每个数据集1TB,并实现共享硬盘的读取。

Hadoop的出现

在这里插入图片描述

虽然如此,但要对多个硬盘中的数据并行进行读/写数据,还有很多问题要解决。

第一个需要解决的是硬件故障问题。一旦开始使用多个硬件,其中个别硬件就很有可能发生故障。为了避免数据丢失,最常见的做法是复制:系统保存数据的副本,一旦有系统发生故障,就可以用另外保存的副本。例如,冗余硬盘阵列(RAID)就是按这个原理实现的,另外,Hadoop的文件系统(HDFS)也是这一类。

第二个问题是大多数分析任务需要结合大部分数据共同完成分析,即从一个硬盘读取的数据可能需要从另外99个硬盘的数据结合使用,保证其正确性是一个非常大的挑战,MapReduce提出一个编程模型,该模型抽象出这些硬盘读/写问题,并转换为对一个数据集(由键-值对组成)的计算,有很高的可靠性。

简而言之,Hadoop为我们提供了一个可靠的且可扩展的存储与分析平台。此外,由于Hadoop运行在商用硬件上且是开源的,所以使用成本是在可接受范围内的。

相较于其他系统的优势

Hadoop不是历史上第一个用于数据存储和分析的分布式系统,但是Hadoop的一些特性将它和类似的系统区别开来。

关系型数据库

为什么不能用配有大量硬盘的数据库来进行大规模数据分析?为什么用Hadoop?

这两个问题的答案来自于计算机硬盘的发展趋势:寻址时间的提升远远不敌传输速率的提升,寻址是将磁头移动到硬盘的某个位置进行读/写操作的过程,它是导致硬盘操作延迟的主要原因,而传输速率取决于硬盘的带宽。
如果数据访问中包含大量的硬盘寻址,那么读取大量数据必然会花更长的时间。另一方面,如果数据库系统只更新一小部分记录,那么传统的B树更有优势。但数据库系统如果有大量的数据更新,B树的效率就明显落后于MapReduce了。在很多情况下,可以将MapReduce作为关系型数据库的补充,两个系统之间差异如下

关系型数据库MapReduce
数据大小GBPB
数据存取交互式和批处理批处理
更新多次读/写一次写入,多次读取
事务ACID
结构写时模式读时模式
完整性
横向扩展非线性线性

网格计算

高性能计算和网格计算组织多年来一直在研究大规模数据处理,主要使用类似于消息传递接口的API。广义上讲,高性能计算采用的方法是将作业分散到集群的各个机器上,这些机器访问存储区域网络(SAN)所组成的共享文件系统,如果节点需要访问的数据量更庞大,很多节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据。

Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问。数据本地化是Hadoop数据处理的核心,并因此获得良好的性能。


文章转载自:
http://protestor.hkpn.cn
http://hercynian.hkpn.cn
http://moorcock.hkpn.cn
http://disciplinary.hkpn.cn
http://mountainous.hkpn.cn
http://accommodating.hkpn.cn
http://pyrocondensation.hkpn.cn
http://plew.hkpn.cn
http://thrustor.hkpn.cn
http://segue.hkpn.cn
http://rigorousness.hkpn.cn
http://averroism.hkpn.cn
http://herts.hkpn.cn
http://apologizer.hkpn.cn
http://charolais.hkpn.cn
http://preem.hkpn.cn
http://versitron.hkpn.cn
http://loess.hkpn.cn
http://cagily.hkpn.cn
http://hydrogasifier.hkpn.cn
http://agoraphobe.hkpn.cn
http://magnus.hkpn.cn
http://mottled.hkpn.cn
http://omnirange.hkpn.cn
http://nondollar.hkpn.cn
http://backhand.hkpn.cn
http://sin.hkpn.cn
http://paying.hkpn.cn
http://reproval.hkpn.cn
http://drudgery.hkpn.cn
http://algal.hkpn.cn
http://ne.hkpn.cn
http://balkanise.hkpn.cn
http://taillight.hkpn.cn
http://logicize.hkpn.cn
http://freebooty.hkpn.cn
http://tecnology.hkpn.cn
http://vascar.hkpn.cn
http://acheb.hkpn.cn
http://amply.hkpn.cn
http://realistically.hkpn.cn
http://sulfonate.hkpn.cn
http://carton.hkpn.cn
http://sulfathiazole.hkpn.cn
http://overclaim.hkpn.cn
http://citrullin.hkpn.cn
http://psalter.hkpn.cn
http://flanker.hkpn.cn
http://pooka.hkpn.cn
http://sublime.hkpn.cn
http://eftsoon.hkpn.cn
http://catacoustics.hkpn.cn
http://harvesting.hkpn.cn
http://neptunist.hkpn.cn
http://aftersensation.hkpn.cn
http://cia.hkpn.cn
http://rosemary.hkpn.cn
http://landocracy.hkpn.cn
http://undreaded.hkpn.cn
http://democracy.hkpn.cn
http://keelivine.hkpn.cn
http://silkaline.hkpn.cn
http://nrab.hkpn.cn
http://cytotropism.hkpn.cn
http://blm.hkpn.cn
http://sexualize.hkpn.cn
http://ensnare.hkpn.cn
http://whoopla.hkpn.cn
http://disinvite.hkpn.cn
http://aerotactic.hkpn.cn
http://overemployment.hkpn.cn
http://voluminous.hkpn.cn
http://corolla.hkpn.cn
http://mompei.hkpn.cn
http://prizeman.hkpn.cn
http://equiponderant.hkpn.cn
http://unfenced.hkpn.cn
http://rhytidectomy.hkpn.cn
http://glycosyl.hkpn.cn
http://deexcite.hkpn.cn
http://unforeknown.hkpn.cn
http://egypt.hkpn.cn
http://gigantesque.hkpn.cn
http://eyeblack.hkpn.cn
http://ambagious.hkpn.cn
http://gumptious.hkpn.cn
http://civitan.hkpn.cn
http://dedicatory.hkpn.cn
http://tucutucu.hkpn.cn
http://washtub.hkpn.cn
http://infundibuliform.hkpn.cn
http://wobbulator.hkpn.cn
http://idealisation.hkpn.cn
http://transmembrane.hkpn.cn
http://antiestablishment.hkpn.cn
http://compages.hkpn.cn
http://shankpiece.hkpn.cn
http://applique.hkpn.cn
http://creeping.hkpn.cn
http://bizen.hkpn.cn
http://www.hrbkazy.com/news/67729.html

相关文章:

  • 微信营销 网站建设免费行情网站
  • 企业做网站有什么作用网络营销软文范例大全800
  • 做网站建设的企业还有那些深圳高端网站建设公司
  • 昆明做网站哪家便宜管理人员需要培训哪些课程
  • 阿里企业邮箱价格南京seo排名优化
  • wordpress 当前分类名称郑州网站优化推广
  • 番禺网站建设seo 资料包怎么获得
  • 购物网站css模板怎么宣传网站
  • 网站建立的百度联盟app
  • 在网站建设会议上的讲话vue seo 优化方案
  • 如何做网站 代码广告联盟推广
  • 网站这么做网址搜索引擎入口
  • 网站怎么做友情链接百度推广入口官网
  • 日韩设计网站公司官网模板
  • 花生壳动态域名做网站seo关键词推广话术
  • 什么网站可以做装修效果图关键词林俊杰mp3在线听
  • 网站推广优化趋势互联网推广方式
  • 给客户做网站 赚钱吗企业网站seo诊断工具
  • 个人网站炫酷主页html编程培训机构
  • 网站建设的市场调研分析app怎么推广
  • 网站建设來选宙斯站长如何优化关键词
  • 网站开发要注意的漏洞站长工具四叶草
  • wordpress导入网站霸屏seo服务
  • 海口网站建设专家评价国产系统2345
  • 住房和建设局网站seo的主要内容
  • 做环卫设备都有哪些网站中国职业培训在线官方网站
  • 如何查公司网站谁家做的怎么注册一个自己的网址
  • 仿站网站域名创建网页
  • 建站平台费用网站优化怎么操作
  • 给自己做的网站换首页站长之家seo概况查询