数据质量
一、基础理论
1、数据质量现状
(1)数据质量差:系统建设时期,对数据质量不够重视,业务操作没有标准和约束,录入随意,导致基础数据质量差
(2)数据标准不统一:缺乏统一的数据标准,同一数据在各系统中有着不同的定义,容易给业务分析带来歧义。
(3)缺乏规范定义流程:缺乏规范的数据标准定义流程,单个业务部门也无力推动系统间数据不一致问题的解决。
(4)数据不完整、不准确:业务系统数据普遍存在数据不完整、不准确、不真实、不及时,以及数据关系混乱等问题。
(5)缺乏有效管理工具:缺乏有效的管理工具,杂乱无序的数据存储于企业内外部的各个业务应用系统中,系统之间的数据无法互联互通,形成大量信息孤岛。


2、低质量数据的影响
(1)名誉受损:基于不准确的数据制定的错误的营销策略,降低了现有或目标客户的好感度、信任度。
(2)增加成本:可衡量的沟通成本、运营成本以及经济损失等有形成本;基于不准确的数据所做出的错误决策造成的无形成本。
(3)运营风险:给数据所产生的衍生品带来负面影响,引起用户的不满和质疑,甚至引发纠纷等。
(4)经济损失:例如电话、电子邮箱不准确,无法对客户进行精准分析,甚至连营销信息都无法送达客户,更不用说销售产品了。
3、高质量数据
(1)数据正确地表达了所描述事物和现象的真实构造:例:同一条客户信息,销售部关注的是产品卖给了谁;物流部门除了客户的姓名、电话以及付款信息,还需要收货人地址、收货人姓名、收货人电话;财务部除以上信息,还关注客户的开票信息。
(2)数据符合某个标准或达到人们期望的水平:例:法人信息与国家法人数据库中的信息是一致的,且记录不重复,存在可识别的业务主键进行唯一性判断。
(3)数据适合预期的使用目的:例:订单行承载客户界面报价和配置,能够支撑POD开票。
4、数据质量定义(ISO8000定义:从语法、语义、语用三个方面去定义和衡量数据质量)
(1)语法:指数据符合规定语法(如:由元数据所陈述要求)的程度。例:合同号码规定填写12位,实际数据录入填写11位。
(2)语义:语义质量,指数据符合于它所代表事物的程度。例:客户下达PO 100PCS,录入系统数据101PCS。
(3)语用:指数据合乎于特定目标用途的程度。例:订单行未承载客户界面报价和配置,无法支撑POD开票。
5、数据质量特性
(1)唯一性:同一数据只能有唯一的标识符 (系统内校验)。例:订单号不能重复出现。
(2)完整性:数据在创建、传递过程中无缺失和遗漏 (空值率校验)。例:员工姓名不可为空(空值率=0%)。
(3)及时性:及时记录和传递相关数据,满足业务对信息获取的时间要求。(数据集成时效校验)。例:数据的更新频率要快于业务的需求频率。
(4)一致性:遵循统一的数据标准,记录和传递数据和信息(系统间主外键校验)。例:张三的身份证号在A系统和B系统是一致的。
(5)有效性:数据的值、格式和展现形式符合数据定义和业务定义的要求。(异常值校验)。例:活动开始日期是1900年,值超出枚举范围等。
(6)准确性:真实、准确记录原始数据,无虚假数据及信息(系统与真实世界校验)。例:供应商共1000家,但供应商维表只有999条。
6、数据质量规则
数据质量规则是判断数据是否符合数据质量要求的逻辑约束。

7、数据质量度量模型:设计质量
对以下四个方面进行评分,从而得出设计质量评估总分。

8、数据质量度量模型:执行质量

二、数据质量管理框架
1、数据治理框架

2、数据质量管理活动

3、数据质量的总体架构
华为以ISO8000质量标准体系为依据,设计能力支撑、PDCA持续改进和领导力3个组件的数据质量管理架构。

三、数据中台项目之数据质量方案
1、数据质量方案
基于数据管理体系和ISO8000的质量模块,设计“数据质量问题改进”、“数据质量异常控制”和“数据质量度量”的持续改进活动,实现数据清洁。

2、实施路线图
分阶段确定变革重点、分解关键任务。

3、数据质量目标规划
基于业务目标和TOP数据问题,识别数据目标,层层分解,由数据Owner承接改进的责任,并对目标的达标负责。

4、数据质量控制:数据质量异常监控

5、设计数据质量规则

6、建立数据控制三道防线
基于数据质量规则,建立事前预防、事中监控、事后反馈的异常数据控制三道防线。

(1)建立数据控制三道防线——事前预防
事前预防:通过防呆防错防止异常数据并提高效率。

(2)建立数据控制三道防线——事中监控
事中监控:建立异常数据闭环通道,及时发现并解决异常,稳定数据质量,减少业务质量事故风险。

(3)建立数据控制三道防线——事后反馈
事后反馈:通过DQ电子流,收集并分流处理异常数据。
反馈方式:
a、通过邮件方式收集并分流处理异常数据
b、后期在数据地图实现DQ电子流

7、数据质量保证:数据质量度量
从“设计”及“执行”两个方面开展,通过“设计”明确责任及标准;通过“执行”反映其质量结果。
设计质量:对多个流程域所有业务对象的数据架构建设情况进行评估
执行质量:聚焦影响“财报”和“业务运营”的关键数据,对准数据质量六性进行评估

8、设计质量度量方案
设计质量为数据架构落地情况,从数据责任人、数据标准、数据模型、数据分布四个方面检查各业务领域、应用系统的数据架构遵从、准备度、落地情况。

9、执行质量度量方案
聚焦影响财报的关键数据和影响业务运营的痛点数据,确定度量对象与指标并开展度量。

10、数据质量度量报告

11、数据质量控制:数据质量问题改进

