【漫谈数据仓库】 如何优雅地设计数据分层

  • 时间:
  • 浏览:6
  • 来源:uu快3app娱乐_uu快3辅助_官方网址

我们都我们都我们都 从理论上来做两个 抽象,可不时需把数据仓库分为下面两个 层,即:数据运营层、数据仓库层和数据产品层。

假若,最终的结果大多却是依赖僵化 、层级混乱,想梳理清楚一张表的声称途径会比较困难,如下图:

有我们都我们都我们都 问了有些问题报告 报告 ,有有些日后 的确没讲清楚,补到这里。

二、技术实践

canal日志合成数据的土法子待研究。

我们都我们都我们都 对数据进行分层的两个 主要原因如此来太多假若在管理数据的日后 ,能对数据两个 更加清晰的掌控,完整版来讲,主要有下面几次原因:

本文对数据分层的讨论适合下面有些场景,超过该范围场景 or 数据仓库经验宽裕的大神就不会浪费时间看了。

0x01 为那此要分层

本文分享了笔者本人对数据仓库的有些理解和想法,不一定准确如此来太多我一定通用,假若可不时需作为两个 参考的思路。有那此问题报告 报告 欢迎多交流。 

问:还是不太明白 ods 和 dwd 层的区别,有了 ods 层后感觉 dwd 如此那此用了。

本文来自云栖社区合作协议协议伙伴“51CTO”,了解相关信息可不时需关注。

问:那存到 Redis、ES 中的数据算不算 app层吗?

本文作者:佚名

业务库,这里总爱会使用 Sqoop 来抽取,比如我们都我们都我们都 每天定时抽取一次。在实时方面,可不时需考虑用 Canal 监听 Mysql 的 Binlog,实时接入即可。

最初在做数据仓库的日后 遇到了如此来太多坑,肯能自身资源有限,接触数据仓库的日后 ,感觉在互联网行业顶端的数据仓库成功经验很少,网上先要找到实践性比较强的资料。而那几本经典书籍顶端又过于理论,折腾起来你造生不如死。还好现在过去了那个坎,假若多花有些时间挂接本人的思路,帮助有些的小伙伴少踩有些坑。文章的形状如下:

问答一: dws 和 dwd 的关系

一、理论

挂接日志,线上系统会打入各种日志,那此日志一般以文件的形式保存,我们都我们都我们都 可不时需选用用 Flume 定时抽取,也可不时需用用 Spark Streaming 肯能 Storm 来实时接入,当然,Kafka 也会是两个 关键的角色。

这顶端也主要分一种类型:

当初的设计总共分了 6 层,其中换成元数据后,还有5层。下面分析一下当初的两个 设计思路。

数据体系中的各个表的依赖就像是电线的流向一样,我们都我们都我们都 都希望它是规整、流向清晰、便于管理的,如下图:

本文主要讲解数据仓库的两个 重要环节:如何设计数据分层!其它关于数据仓库的内容可参考日后 的文章。

注意: 在这层,理应完整版都是简单的数据接入,如此来太多我要考虑一定的数据清洗,比如异常字段的除理、字段命名规范化、时间字段的统一等,一般那此很容易会被忽略,假若却至关重要。有点痛 是后期我们都我们都我们都 做各种形状自动生成的日后 ,会十分有用。后续会有文章来分享。

其它数据源会比较多样性,这和具体的业务相关,不再赘述。

原文发布时间为:2017-10-20

数据分层是数据仓库非常重要的两个 环节,它决定的不仅仅是两个 层次的问题报告 报告 ,还直接影响到血缘分析、形状自动生成、元数据管理等一系列功能的建设。假若适于尽早考虑。

答:对的,可不时需大致原先理解。

另外,每一层的名字不会太过在意,本人按照喜好就好。

下图,做了有些小的改动,我们都我们都我们都 换成了上一节的Buffer层,把数据集市层和轻度汇总层装入 同两个 层级上,一块儿独立出来了维表和临时表。

0x05 问答

答:ods 直接到 dws 就好,没必要过 dwd,我举个例子,你的浏览商品行为,我做一层轻度汇总,就直接装入 dws 了。但你如此了的资料表,要从好多表凑成一份,我们都我们都我们都 从四五份本人资料表中凑出来了一份完整版的资料表装入 了 dwd 中。假若在 app 层,我们都我们都我们都 要出一张画像表,所含用户资料和用户近一年的行为,我们都我们都我们都 就直接从dwd中拿资料, 假若再在 dws 的基础上做一层统计,就成两个 app表了。当然,这完整版都是绝对,dws 和 dwd 有如此依赖关系主要看有如此累似 需求。

应用层(App)

一、文章主题

问:我要花费明白了,是完整版都是说 dwd 主如此来太多我对 ods 层做有些数据清洗和规范化的操作,dws 主如此来太多我对 ods 层数据做有些轻度的汇总?

答:并行的,dw 层

如我们都我们都我们都 总爱说的报表数据,肯能说那种大宽表,一般就装入 这里。

这里嘴笨 如此来太多我我们都我们都我们都 现在大数据技术发挥作用的两个 主要战场。 我们都我们都我们都 的数据主要会两个 大的来源:

0x04 如何更优雅有些

明细层(ODS, Operational Data Store,DWD: data warehouse detail)

0x02 如何分层

这三层技术划分,相对来说比较粗粒度,顶端我们都我们都我们都 会专门细分一下。在此日后 ,先聊一下每一层的数据一般完整版都是为甚流向的。这里仅仅简单介绍几次常用的工具,侧重中开源界主流。

1. 数据来源层→ ODS层

问:对呀,那原先 dws 顶端的汇总如此经过数据质量和完整版度的除理,肯能单独做了累似 质量相关的除理,为那此如此了 dwd 之上再做汇总呢?我的问题报告 报告 嘴笨 如此来太多我,dws的轻度汇总数据结果,有如此做数据质量的除理?

答:累似 问题报告 报告 不太好回答,我感觉主要如此来太多我明确一下数据集市层是干那此的,肯能你的数据集市层放的如此来太多我有些可不时需供业务方使用的宽表表,装入 app 层就行。肯能你说歌词 的数据集市层是两个 比较泛有些的概念,如此嘴笨 dws、dwd、app 那此合起来都算不算 数据集市的内容。

问答三:app 层是干那此的?

问:那嘴笨 对于同两个 数据,这两个 过程是串行的?

主题层(DM,data market或DWS, data warehouse service)

答:dws 会做汇总,dwd 和 ods 的粒度相同,这两层之间也如此依赖的关系

问答二: ods 和 dwd 的区别

缓冲层(buffer)

0x03 举个例子

轻度汇总层(MID或DWB, data warehouse basis)

答:嗯,我是原先理解的,站在两个 理想的角度来讲,肯能 ods 层的数据就非常规整,基本能满足我们都我们都我们都 绝大每项的需求,这当然是好的,这日后 dwd 层嘴笨 也没如此来太多必要。 假若现实中接触的情况是 ods 层的数据先要保证质量,毕竟数据的来源多种多样,推送方也会有本人的推送逻辑,在累似 情况下,我们都我们都我们都 就时需通过额外的一层 dwd 来屏蔽有些底层的差异。

在这里,主如此来太多我提供给数据产品和数据分析使用的数据,一般会存装入 ES、Mysql 等系统中供线上系统使用,也肯能会所处 Hive 肯能 Druid 中供数据分析和数据挖掘使用。

答:算不算 的,本人的理解,app 层主要存放有些相对性性早熟的句子的句子的句子的句子的句子期期的句子的句子的表,能供业务侧使用的。那此表可不时需在 Hive 中,也可不时需是从 Hive 导入 Redis 肯能 ES 累似 查询性能比较好的系统中。

问:感觉数据集市层是完整版都是没地方放了,各个业务的数据集市表是应该在 dwd 还是在 app?

问:dws 和dwd 是并行而完整版都是先后顺序?

前面提到的一种设计嘴笨 相对来讲肯能很完整版了,假若肯能层次会有有些多,假若在区分一张表到底该存装入 那此位置的日后 肯能还有不小的疑惑。我们都我们都我们都 在累似 章里再设计一套数据仓库的分层,一块儿在前面的基础上换成维表和有些临时表的考虑,来我想要们歌词 的方案更优雅有些。

0xFF 总结

二、文章形状

2. ODS、DW → App层

这里解释一下DWS、DWD、DIM和TMP的作用。

网上的例子如此来太多,就不列了,只举个笔者早期参与设计的数据分层例子。分析一下当初的想法,以及累似 设计的严重不足。上原图和内容。

猜你喜欢

三星w2018组装机怎么样?能不能买?

 我来答为你推荐:可选中三个 多多或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。你对你你这种回答的评价是?本回答被提问者采纳展开完整篇 展开完整篇

2020-03-22

2018上半年电信三大运营商净利多少?

财报显示,上四天,中国移动净利润656.41亿元,同比增长4.7%;中国联通净利润25.8亿元,同比增长231.8%;中国电信净利润135.7亿元,同比增长8.1%。 经计算,

2020-03-22

为何风口过去之后,百果园反而要在无人零售上发力?

一次未果的试水百果园办公室无人货架尝试为啥悄然停止?這個次的无人零售,和上一次哪些不同?对百果园的整体战略来说,这次的无人零售尝试,又扮演着如保的角色?针对以上难题,百果园无人

2020-03-22

[LeetCode] Number of 1 Bits 位1的个数

本文转自博客园Grandyang的博客,原文链接:[LeetCode]Numberof1Bits位1的个数,如需转载请自行联系原博主。Forexample,the32-biti

2020-03-22

想买个thinkpad,那款的性价比高点。资金4k左右。

有点痛 推荐联想集团是1984年中科院计算所投资十五万元人民币,由11名科技人员创办,是一家在信息产业内多元化发展的大型企业集团,充足创新性的国际化的科技公司。从1996年刚

2020-03-22