康赛
康赛
康赛
康赛
康赛
康赛
康赛
康赛
康赛
中国教育信息化第一方阵企业
用科技改变教育,让教育成就未来

重铸数据生态内循环,全量数据质量监控平台重磅升级 返回

2020-1-21

 

 

11.webp.jpg

数据质量的管理和提升,近几年已经成为数据治理的热门话题,但如何体系化的开展数据质量活动一直以来都缺乏系统的理论支持。

 

经过反复实践与深度研究,康赛提出了一种适用于教育行业实际业务的DQAF(Data Quality Analyze Framework)数据质量评测框架,这个框架从五个维度出发,共确定了十三项数据质量元规则,采用元规则+业务数据+规则模版引擎的方式,可按需动态生成数千个不同的业务规则,并自动按业务主题生成面向不同部门的数据质量检测报告,从而帮助学校从源头推进数据质量改进活动。以此框架为核心的全量数据质量监控平台近年来已经帮助众多知名高校,在数据治理工作中取得重要突破。详细介绍可以看这里:http://dqas.comsys.net.cn/

 

与此同时,全量数据质量监控平台结合机器学习等前沿技术体系,不断的推出新的、更加智能化的功能,目前新增提供三种类型的智能数据质量报告:

 

22.webp.jpg

对脏数据的特征进行自动聚类,并推测出错误类型。主要帮助用户减少在错误数据类别划分上花费的精力,并辅助管理人员及时发现有缺漏的部分,可以在码表排查,有限集划分等方面起到重要作用。

 

33.webp.jpg

对数据值的概率密度分布进行分析,并动态甄别其中的特异点(数据值)。主要帮助用户自动识别部分虽然符合数据标准,但在统计学上不符合场景业务条件的特异数据。

 

44.webp.jpg

对指定的多个数据列进行回归分析,发掘其相关性并动态排查特异数据值。可以帮助用户挖掘多表、多列之间的潜在统计学关系,并反推出不符合关系条件的错误数据。在这之前,对于此种脏数据的检测完全依赖于管理人员对具体业务的理解,比如学生成绩表检查这样的场景,依靠列间关系的辅助,系统可以自动推断出总成绩与各科成绩的大致关系,不需要提前录入成绩计算脚本。

 

分隔符.gif

 

在大数据时代,高校数据治理的范畴包括主数据、业务数据、分析数据等全量数据。康赛全量数据质量监控平台,集数据快速评估(列剖析)、数据质量检测、数据质量量化监控、数据质量报告,脏数据库管理于一体,为实现数据挖掘、应用集成、数据质量分析、管理、决策等提供必要的支撑。目前,全量数据质量监控平台已经在南开大学、北京服装学院、西安科技大学等高校正式启用,有效帮助学校从容应对在促进数据质量的完整性、准确性等方面的挑战,持续进行数据的整改优化。今后,康赛还将继续前行,为学校提供围绕数据生态建设的一系列服务,助力高校信息化的快速推进。