康赛
康赛
康赛
康赛
康赛
康赛
康赛
康赛
康赛
中国教育信息化第一方阵企业
用科技改变教育,让教育成就未来

全量数据质量监控何以与众不同? 返回

2018/7/26

 

1.webp.jpg

 

2.webp.jpg

 

全量数据质量监控系统(以下简称玉衡)从架构上与ETL过程完全解耦,而市面上其他产品大多是在ETL的数据清洗过程中进行的一些简单规则检查。数据质量监控是一项对数据库访问量和计算量较大的工作,而ETL过程本身的性能压力已经较大,将这两项任务进行解耦后可以大大降低数据库的访问压力,提高数据清洗整合与数据质量监控的效率,同时减少数据清洗整合作业出错的概率,提高稳定性。

 

3.webp.jpg

 

康赛数据质量监控规则的设计依据来自于国际公认的数据质量评估框架(Data Quality Assessment Framework),具体包括五大维度(完备性、及时性、一致性、有效性、跨表完整性)、14类子规则,对检查数据质量问题的全面性和系统性方面有着科学的理论基础。较之其他仅能检查一些空值、重复数据、字符长度等信息的产品,玉衡对数据质量问题类型的覆盖度是不言而喻的。

 

4.webp.jpg

 

上述两方面的差异带来的一个必然结果就是对学校数据中心内数据的检测覆盖度产生巨大差异。更全面的监控维度结合更高的性能,使玉衡在实际项目实施运行中的监控规则数量几乎可以和数据中心内全部数据表的总字段数达到1:1甚至更高的比例,字段覆盖度一般达到70%以上(部分关键字段会有多条检测规则)。对于检测维度不够全面,性能压力更大的解决方案中实际监控规则覆盖度仅能对少量字段进行检查(普遍低于10%)。

 

5.webp.jpg

 

数据质量管理不是一项纯技术的工作,需要得到包括学校各级领导、各业务部门的配合才能完成。玉衡可提供完全自动生成的数据质量报告文档,以更贴近非技术人员容易理解的语言,向他们描述数据质量情况,更便于部门之间的理解与配合。

 

6.webp.jpg

 

各类数据质量规则的设置都可通过可视化的配置完成,甚至可以进行批量的导入设置,无需编写复杂的SQL语句,大大降低了数据质量工作的技术门槛,经过几个小时的简单培训,信息中心甚至业务部门的老师们都可以自行配置监控规则,不会对厂商产生技术依赖,甚至技术绑架。

 

7.webp.jpg

 

一切不能量化的评价都不是有效的评价。玉衡是业内首个将数据质量以数据质量指数(Q值,百分制分数)进行量化评价的产品。对全校整体以及各个部门均有数据质量指数的分值,可以更加直观、准确的反映数据质量的程度,以便在进行数据质量管理后,对数据质量变化的趋势进行精确的掌握。

 

8.webp.jpg

 

康赛公司为学校实施的数据质量监控项目不仅提供安装部署和试用培训。还能够基于康赛多年以来在高校信息化中对业务的理解,为用户提供一套初步的数据质量监控规则草案,其覆盖率不低于50%,为用户大大降低了一些通用性和基础规则设计的工作量。

 

9.webp.jpg

 

结合康赛公司数据部门内部的研究与实践项目的经验,康赛为校方在数据质量管理工作方面所提供的不仅是产品与实施的服务,还可以帮助学校一起梳理和制定符合学校实际校情的数据质量管理办法以及数据质量管理体系的咨询服务。