华为云数据实施交付

qq1035807396 / 2023-07-17 / 原文

一、DGC数据治理方法论

1、项目角色

  数据管理部验收DGC,业务部门验收IOC

2、数据是怎么拉通业务和IT的?

  数据治理如果直接从源系统开始,不但影响范围大,而且还会影响生产系统的正常运行,如果将数据同步映射一份到数据底座中,在数据底座中进行规范化,标准化,验证整合可行性,形成企业级统一规范的标准架构,经验证后,推动源系统参考修改,是一种比较稳妥的策略。

  数据中台一方面是做数据共享交换、开放,还有一方面,也用于数据管理部反向规范源系统数据标准、质量。

  现在咨询并没有把DGC给用起来,我们实施懂DGC,咨询不懂。现在还没有人拉通这两个环节。

3、为什么要成立数据管理部?

  以前开发一个系统,业务没参与进来的时候都是IT自己做,咋做IT自己说了算,IT做的不是业务想要的,经常返工。

  因为业务不想迈一步,IT也不想迈一步,所以出现了数据人员,解决业务和IT握手的问题。很多小公司这块职能都是由IT部门的BA(产品经理)来承接。比业务更懂IT,比IT更懂业务,很像机关拉通的那种部门,但是却是落地的一个职能。

  BA没有IA的能力,才需要数据人员。数据做的是统筹,倒不是说BA能搞定的事。(概念跟逻辑)模型是数据来建,(概念、逻辑、物理)建表是IT来建。

  数据管理部职责:数据架构IA(新系统上线)、数据质量(抽鞭子,模型、字典都得有!)、数据分析(领域较弱,领域、工具、导入)

4、实践

  从项目实施出发(其中的业务调研是 业务咨询 进行的),通过双轮驱动,实施从底层建设数据中台做数据治理,咨询从顶层调研业务痛点做数据应用,二者在指标环节进行对接,产生交集,最终给客户带来价值(咨询的数据应用直接带来价值,实施的数据治理带来长期价值)。

  数据出发:1)数据集成 2)数据质量探查(指导整合层开发) 3)主题设计 4)整合层开发(mapping -> 关系建模 -> 数据标准)

  业务出发:1)指标设计(流程) 2)维度范围框定

二、业务调研及数据调研

1、正向设计和反向设计

  若客户有需求,例如资金周转模块,那就是将资金周转拆解到流程来制定指标。

  若客户无需求,则通过流程寻找可行指标,再汇总成模块。

2、主题划分

3、指标设计

4、源系统调研

5、数据调研

6、技术架构

  在对数仓建模中,必定会涉及到数据分层。对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:

  (1)清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

  (2)减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

  (3)把复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。

  (4)屏蔽原始数据的异常。

  (5)屏蔽业务的影响,不必改一次业务就需要重新接入数据。

三、SDI贴源层设计、实施及运维

1、输入输出

2、集成方案

  增量集成适用于:

  1)源端存在增量时间戳字段并且时间值准确,同时又不支持CDC LOG方式捕捉实时数据库变化。

  2)整体作业时延要求较短,增量抽取间隔为10~30分钟以内。

  3)全表记录数较大,1000+万数量级。(或按照内容大小/集成时间)

3、开发规范

4、字段变更检测

5、运维

四、DWI整合层设计、实施及运维

1、输入输出

2、关系建模(3NF建模)

  同表不出现两次,也可以通过DWI整合层的ss_id字段来解决。

  清洗工作放在整合层,整合层做主数据,明细层做维表,一层全做也可以。

  明细层就是拉宽表,做冗余了,要准备数据展示。

3、词根

4、数据质量探查

  数据分布探查包括业务流、数据流、数据源认证。

  业务流就是描述业务如何进行的流程图,先做啥,后作啥,谁来做。

  数据流是一个属性或者一个实体,从哪个流程/系统流到哪个系统。

  基于上面2个,要定出一个实体或者某个属性的可信数据源,作为后续的DWI关系建模的前置依赖。

  数据质量综合水平由设计质量和执行质量组成。

    设计质量:数据架构落地情况,从数据责任人、数据标准、数据模型、数据分布四个方面检查各业务领域、应用系统的数据架构遵从、准备度、落地情况。

    执行质量:数据执行结果质量,根据数据质量六性评估业务系统中业务数据的质量情况。

  缺失质量的后果:

    1)缺少数据责任人对数据的全生命周期进行规划和看护,对产生的数据问题进行解决改进,确保后续不再发生类似数据问题;

    2)缺少完整、一致、准确的数据标准规范集团公司内的业务术语与命名,造成同一业务对象分散存储,存储结构各异,影响数据共享,数据标准的缺失使得各系统没有对数据做录入校验,存在异常数据,影响用户体验与报告准确;

    3)各业务系统的数据模型更新维护不及时,模型中的各数据实体缺少关系,不能反应出相互之间的引用与约束;

    4)各业务缺少端到端的业务流与数据流,并且核心主数据与交易数据缺乏可信数据源,使得系统之间数据集成不一致,口径存在差异。

5、整合映射规则和数据质量作业开发

  一期项目做不了这么多事情,很多时候数据质量作业都是挑一小部分做。

6、数据标准范围

7、数据标准文档开发

8、ETL开发

  基于咨询输出的Mapping文档,生成整合层的ETL。

  考虑到只有增量集成的贴源表会进行删数打标,整合层采用MERGE INTO方法会导致无法感知源表物理删数的问题,故在进行全量集成时选择全连接的方式进行增删改拉链处理。

9、作业质量效验

10、运维

五、DWR报告层设计、实施及运维

1、输入输出

2、维度表主数据

  数据调研和业务调研反复进行,两者交替。没有先后顺序。

 3、事实表

4、数据备份

六、DM集市层设计

1、输入输出

2、指标设计

3、调度

  层间依赖使用成本低,更清晰,运维界面可以拉至层级(各层运维),但调度速度慢。

  节点间依赖使用成本高,看起来比较复杂,但是调度速度快。

4、扩展字段

七、项目管理

1、角色

2、整体设计

3、工具选型

4、实施计划

  https://shimo.im/sheets/1LN7MY88hEAF312V/0pWgw

5、项目进展汇报

6、协同文档

7、项目运维

本篇文章参考自《华为云数据使能实施交付赋能培训.pptx》