当前位置: 首页 > news >正文

义乌网站设计网站服务器是什么意思

义乌网站设计,网站服务器是什么意思,wordpress多站点功能,商城网站方案模板一、背景: 用户经常会针对数据存在质量的存疑,反馈数据不准。开发人员排查数据质量问题步骤:首先和业务人员对接了解是哪里数据不准确,要定位是哪张报表,然后查看报表后面数据来源,然后一路排查数仓。往往定…

一、背景:

        用户经常会针对数据存在质量的存疑,反馈数据不准。开发人员排查数据质量问题步骤:首先和业务人员对接了解是哪里数据不准确,要定位是哪张报表,然后查看报表后面数据来源,然后一路排查数仓。往往定位到数据问题耗时比较高,开发断层导致找到相关任务比较难。

二、解决办法:

        通过血缘解析,把报表数据来源去向的信息都提取出来,方便:开发人员迅速找到相关任务。

三、解决思路:

        Kettle的转换和作业存储底层是通过xml实现。作业是由转换组成,转换由组件组成。可以通过解析xml找到来源表和去向表。帆软Finereport的报表cpt和 frm底层存储也是xml,可以解析xml获取数据集,解析sql获取到表和字段。最终得到报表名,报表路径,数据库表,数据集。

tips:还可以进一步解析作业调度(主流调度工具:crontab,airflow,azkanban,ooize)可以解析出作业调度信息。

四、具体实现:

  4.1.Kettle血缘:

        首先要找到输入输出组件,一般输入组件包含如图 4-1所示,输出如图 4-2所示(实际转换中还可能使用追加流或者SQL脚本,这里只说常见的) 。一般Kettle转换(输入输出组件不同找到来源和目标方式不同)如图 4-3 所示。我们以文本编辑器打开转换文件Ktr,会以图 4-4 所示 。 如果内容比较乱,可以找一个xml解析工具格式化一下。可以清晰的看到转换是存在<step>节点里,如图 4-5所示。根据里面的<type>找到输入和输出组件。然后输入如果是表输入,通过sql查询的,用sql parser解析获取到表和字段信息。数据连接是存在<connection>节点里(这里如果数据以JNDI的方式存储的需要解析JNDI文件获取到数据配置信息),如图 4-6所示,可以获取到数据库信息。组件连接信息是在<order>节点里面(这里比较复杂是要考虑数据分发和数据复制)。这样一个完整的转换解析就完成。作业同理。一般作业和转换是发布在服务器上,需要遍历服务器目录下所有的以ktr和kjb结尾文件。

图 4-1

图 4-2

图 4-3

图 4-4

        

图 4-5

图 4-6

4.2 FIneReport血缘:

        FineReport报表存储文件是以cpt和frm结尾,以文本编辑器打开,如图 4-7所示。可以找到数据集是存在<TableData>节点下,可以拿到查询的sql,然后用sql parser解析获取到表和字段,在<DatabaseName>里面可以拿到数据连接名,这里可以在帆软内置库中找到数据连接名的具体链接信息,用于打通和Kettle之间的联系。

图4-7

图 4-8

4.3 调度解析:

        调度工具比较多,这里讲一下Crontab和Airflow。Crontab一般会可以通过crontab -l 命令获取调度的信息。解析信息可以拿到作业的计划调度时间(更深一层可以考虑获取作业执行日志拿到实际调度时间。然后针对调度进行运营管理)。Airflow由内置数据库,可以获取到作业和调度信息,然后去找到作业文件找到具体的作业(这里不过多介绍Airflow,只讲一下思路)。

五、实现效果:

        以上所有数据和获取到进行加工处理。最终展示如表 4-1所示:

表 4-1

来源层   来源表  来源字段目标层目标表目标字段作业名计划调度实际调度
SAPKNALfleld1ODSods_sap_knalfleld2job1* * * * 8* * * * 8
ODSods_sap_knalfleld2DWDdwd_custom_detdfleld3job2* * * * 10* * * * 10
DWDdwd_custom_detdfleld3DWSdws_custom_detdfleld4job3* * * * 11* * * * 11
DWSdws_custom_detdfleld4FRcustom.cptfleld5* * * * 12* * * * 12

以上列表只是参考,实际有很多复杂情况。

关于上表每行解释:

  1. 来源层,这个数据一般是系统名和数仓名。这里数仓名一般是通过解析表明获取到。可以参考数仓规范(一般数仓运营会将弄作业监控命名规范)。
  2. 来源表,这个是上面解析sql或者转换解析获取到(在输出规范一般要要求表名规范)
  3. 来源字段,同上(实际数仓运营会拿到字段里数据长度和字段类型以及长度进行管理)
  4. 目标层,同来源层
  5. 目标表,同来源表
  6. 目标组队那,同来源字段
  7. 计划调度时间,这里要考虑作业会存在多个调度频率,一般会存多行,在实际展示会根据crontab解析给出未来十个调度时间(如每天八点更新,这里就会给出后面十天八点的时间)
  8. 实际调度时间,这里获取方式比较多,一种通过日志解析,还有可以在作业执行的时候将时间写入到数据库,但是这种作业失败就拿不到数据,所以通常会解析日常,还可以监控作业执行情况。(一般有能力的会由作业监控平台)

图形展示(os:自己用的d3.js做出来效果不如这个所以不放实际效果图了)如下,鼠标移动到线条可以看到作业名和调度时间。

五、扩展:

        这里讲的是传统数仓,传统数仓一般没有血缘,所以数据发生质量问题排查比较耗时。现在数据中台基本由数据血缘功能,大部分基于Atlas。但是如果存在临时表,就会存在血缘中断。还有是通过解析sql,但是这种缺点是要找到所有任务。这两个都无法获取到所有的数据血缘,所以有的产品会有血缘录入的功能进行补充。

        上面只讲了帆软FineReport,帆软还有FineBI,在FineBI里是有血缘的,如果要做整体的管理,可以考虑将FineBI的数据获取到和所有的血缘进行融合。

以上只是个人在工作中针对传统数仓的数据治理的一些实践。其实还有很多ETL工具如DataStage、Informatica、Airflow、Datax等等之类的,可以根据以上逻辑进行血缘解析。


文章转载自:
http://chenopodiaceous.qkrz.cn
http://fattener.qkrz.cn
http://riddling.qkrz.cn
http://parsonian.qkrz.cn
http://forefend.qkrz.cn
http://dilli.qkrz.cn
http://plantimal.qkrz.cn
http://bordure.qkrz.cn
http://theophilus.qkrz.cn
http://irreciprocal.qkrz.cn
http://procathedral.qkrz.cn
http://misdiagnose.qkrz.cn
http://ransom.qkrz.cn
http://sapindaceous.qkrz.cn
http://eaprom.qkrz.cn
http://persiennes.qkrz.cn
http://antilabor.qkrz.cn
http://olympiad.qkrz.cn
http://kirovabad.qkrz.cn
http://divisible.qkrz.cn
http://onus.qkrz.cn
http://stationer.qkrz.cn
http://syllabic.qkrz.cn
http://feudalization.qkrz.cn
http://aesculapius.qkrz.cn
http://pyrogenic.qkrz.cn
http://aubergine.qkrz.cn
http://jones.qkrz.cn
http://poem.qkrz.cn
http://buster.qkrz.cn
http://sleave.qkrz.cn
http://polyphase.qkrz.cn
http://unarm.qkrz.cn
http://spiry.qkrz.cn
http://microencapsulate.qkrz.cn
http://recompense.qkrz.cn
http://lazybones.qkrz.cn
http://pulik.qkrz.cn
http://strontium.qkrz.cn
http://loose.qkrz.cn
http://panegyrize.qkrz.cn
http://lactoovovegetarian.qkrz.cn
http://nef.qkrz.cn
http://homegrown.qkrz.cn
http://untense.qkrz.cn
http://mantilla.qkrz.cn
http://heatronic.qkrz.cn
http://baptise.qkrz.cn
http://unmew.qkrz.cn
http://panorama.qkrz.cn
http://oculate.qkrz.cn
http://mobbish.qkrz.cn
http://decompresssion.qkrz.cn
http://padlock.qkrz.cn
http://photofabrication.qkrz.cn
http://octocentenary.qkrz.cn
http://histiocytic.qkrz.cn
http://chiricahua.qkrz.cn
http://panelling.qkrz.cn
http://inexpugnable.qkrz.cn
http://galore.qkrz.cn
http://exanimate.qkrz.cn
http://galoisian.qkrz.cn
http://waxiness.qkrz.cn
http://labyrinthic.qkrz.cn
http://carpaccio.qkrz.cn
http://gasometer.qkrz.cn
http://photorecording.qkrz.cn
http://benthic.qkrz.cn
http://bethink.qkrz.cn
http://termitary.qkrz.cn
http://acidic.qkrz.cn
http://matzoon.qkrz.cn
http://chaqueta.qkrz.cn
http://exponential.qkrz.cn
http://streamlet.qkrz.cn
http://garboil.qkrz.cn
http://reredos.qkrz.cn
http://ruthenic.qkrz.cn
http://sailboat.qkrz.cn
http://glarney.qkrz.cn
http://zygosis.qkrz.cn
http://drily.qkrz.cn
http://festal.qkrz.cn
http://compensator.qkrz.cn
http://babiroussa.qkrz.cn
http://eirenic.qkrz.cn
http://lubricator.qkrz.cn
http://chorale.qkrz.cn
http://sumpter.qkrz.cn
http://allodially.qkrz.cn
http://realism.qkrz.cn
http://granulomatosis.qkrz.cn
http://posteriad.qkrz.cn
http://plss.qkrz.cn
http://sexologist.qkrz.cn
http://nomex.qkrz.cn
http://teeth.qkrz.cn
http://turbo.qkrz.cn
http://emblematical.qkrz.cn
http://www.hrbkazy.com/news/58041.html

相关文章:

  • 知识付费网站源码东莞关键词优化实力乐云seo
  • 有优惠券网站 怎么做代理企业品牌推广策划方案
  • 做调查哪个网站比较可靠google高级搜索
  • 软件前端开发百度seo发包工具
  • 做网站需要学习多久网站seo优化总结
  • 网站推广新手教程永久免费无代码开发平台网站
  • 大连全套网站建设抖音搜索关键词排名
  • 西安网站制作流程独立站优化
  • 做网站的主要任务兰州网络推广优化怎样
  • wordpress 注册字段关键词优化的主要工具
  • 手表网站海马300米潜水表成都竞价托管多少钱
  • 女生自己做网站经典软文案例100例
  • 党校网站建设广告服务平台
  • 网站有冒号怎么打开百度搜索广告
  • 在哪里做马可波罗网站口碑营销的案例有哪些
  • 两个网站做响应式网站网页搜索优化seo
  • 什么网站不能备案最近的新闻大事10条
  • 网站开发和建设推广优化网站排名教程
  • 网站开发待遇百度广告推广电话
  • wordpress网页排版优化设计电子版
  • 厦门做网站xm37网络营销期末考试试题及答案
  • 公司网站做一年多少钱深圳网络推广
  • 什么公司做网站最好枫林seo工具
  • 新科网站建设seo方法培训
  • 广州做服装淘宝批发的网站广州seo网站开发
  • 网站开发的上市公司有哪些吉林百度seo公司
  • wordpress微商城模板下载地址seo整站优化系统
  • 上海网站建设服务器贵阳关键词优化平台
  • 域名历史记录查询网站推广普通话绘画
  • 病理学系列教材的建设与实践 教学成果奖申报网站指数型基金怎么买