当前位置: 首页 > news >正文

开发公司网签物料移动端排名优化软件

开发公司网签物料,移动端排名优化软件,wordpress百宝箱软件,wordpress 高并发崩溃#1.数据倾斜 什么是数据倾斜? 一部分数据多 一部分数据少 造成的结果: MR运行过慢 主要是shuffle和reduce过程慢 分组聚合导致数据倾斜 Hive未优化的分组聚合 方法1:在MAP端直接聚合(分组聚合优化),减少…

#1.数据倾斜
什么是数据倾斜?
一部分数据多
一部分数据少
造成的结果: MR运行过慢 主要是shuffle和reduce过程慢

分组聚合导致数据倾斜

Hive未优化的分组聚合
在这里插入图片描述
方法1:在MAP端直接聚合(分组聚合优化),减少Key
MR失败

方法2:随机数,按随机数放入reduce中 解决数据倾斜 第二个Jobs按分组字段分区
因为生成随机了,所以按

方法1和方法2 一起用是不影响的
先进行聚合 然后按随机数分配reduce 再启动一个job dierge job 按分组字段分区

join的数据倾斜
最后根据KEY进行分组
在这里插入图片描述
这里的数据倾斜的现象和影响是什么呢?
1.map join
2. skew join
牺牲一个job为代价解决
将产生数据倾斜的Key去单独跑一个job
其实就是啥, map将大K提出来重新一个job ,剩下的直接生成结果集,然后job2的结果最后也注入结果集
根据参数判断
在这里插入图片描述
这里晚点多看一下
大表Join 对倾斜Key的表的key打散,对关联的另一张表的key扩容
为什么????

reduce 并行度
可以指定并行度,也可以自动
可以设置最大值
为什么最大默认1009
在这里插入图片描述

可以设置reduce task数据量 估算Reduce并行度

reduce task量与数据量相关合理么?
不合理,因为收到的是map处理后的数据,有可能已经变小很多了,在reduce端小文件
但是无法获取map的数据量

在这里插入图片描述
3表join OBC如何优化?
在这里插入图片描述
在这里插入图片描述
优化后: 先进行小表合并,

谓词下推
谓词下推(predicate pushdown)是指,尽量将过滤操作前移,以减少后续计算步骤的数据量。
CBO优化也会完成一部分的谓词下推优化工作,因为在执行计划中,谓词越靠前,整个计划的计算成本就会越低。
–是否启动谓词下推(predicate pushdown)优化
set hive.optimize.ppd = true;
白话:
在这里插入图片描述
谓词下推:先执行过滤条件再执行join

在这里插入图片描述

hive本地模式
在这里插入图片描述
开启自动转换模式
符合条件用本地 不符合条件用集群
与直接设置HADOOP参数语句的不同
一个自动,一个主动。

set mapreduce.framework.name=local;
http://www.hrbkazy.com/news/18086.html

相关文章:

  • 设计好看的美食网站有哪些关键词挖掘站长工具
  • 怎么申请做网站百度网址是什么
  • 网站建设的公司太多了百度营销大学
  • 做网站需要画草图企业管理培训课程
  • 各位大哥给个网站网站自然排名工具
  • 党风廉政建设网站松原今日头条新闻
  • 建网站用百度直播间
  • 网站建设所需美工怎么创建网站免费建立个人网站
  • 如何用dede做带下单的网站莆田seo
  • 新疆乌鲁木齐哪家做网站好百度推广怎么收费标准
  • 网站建设需要公司网站广告接入
  • 洛阳网站建设建站系统男生短期培训就业
  • 网站运营管理报告总结网站平台做推广
  • 个体工商户备案网站备案google chrome download
  • 适合大学生做的网站可以免费发布广告的平台有哪些
  • 音乐影视网站建设方案seo课程多少钱
  • 学校招办网站怎么做网络推广途径
  • 设计本网站是用什么做的301313龙虎榜
  • 做卡盟网站教程做网站找哪个公司好
  • 洛阳市住房和城乡建设局网站搜索优化是什么意思
  • 建设银行网站怎么登录密码忘了怎么办知乎小说推广对接平台
  • 怎样在网站上做免费的推广石家庄百度关键词搜索
  • 社交网站建设计划书12月10日新闻
  • 设计师常用的灵感网站广告留电话号的网站
  • wordpress smartrss搜索引擎网站优化和推广方案
  • 日本手做网站sem竞价是什么意思
  • 网站建设收费标准长沙官网seo
  • 单页面网站怎么做优化排名域名查询网站入口
  • 做网站需要的信息seo技术经理
  • 专做PPP项目网站百度应用宝