数据质量研究综述

数据是信息的载体, 好的数据质量使各种数据分析能够得到有意义结果。数据质量管理贯穿于数据生命周期的各个阶段,但目前尚缺乏一个系统的思路。数据质量有不同的定义,成功的数据质量提高方案必然是综合应用各种策略。目前,数据质量的研究主要围绕两个方面展开:数据质量的评估和监控 和从技术的角度保证和提高数据质量。
一般认为数据质量是一个层次分类的概念,每个质量类最终分解成具体的数据质量维度。数据质量评估的核心在于如何具体地评估各个维度,目前方法主要分成两类:定性的策略和定量的策略。
数据质量提高技术主要涉及实例和模式两个层面。数据清洗是数据质量提高技术研究的主要内容,它主要关注数据实例层面的问题,主要集中在几个方面:重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等。 关于模式,在数据质量提高技术的角度主要讨论如何根据已有的数据实例重新设计和改进模式。
在论文的最后,介绍了几个具有代表性的数据质量提高框架,并针对数据质量提高过程中的问题,提出了三个同心环的数据质量研究框架,即居于核心的是质量维度监控评估; 中间层是不依赖于知识的数据清洗; 最外层是依赖于应用逻辑的数据清洗。

与会人员:
陈绪、段优、丁会通、江思源、景波、刘杰、明鉷、唐晨、滕越、王雨婷、殷越、严金戈

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论