APP下载

大数据质量管理:问题与研究进展

2015-09-10

人民周刊 2015年5期
关键词:多维度线性错误

当前大数据对科学和产业产生了巨大影响,大数据的质量对其有效应用起着至关重要的作用。大数据的规模性、高速性和数据来源及形式上的多样,使数据有更大可能产生不一致和冲突。这些都导致大数据存在质量问题,需要对大数据进行质量管理。目前大数据的质量管理包括:实体识别和基于规则、基于主数据的错误发现等。然而,大数据的特点为数据质量管理带来很多技术挑战。众多学者提出了解决方法:针对计算困难,采取并行化技术实施数据质量管理,为数据清洗设计线性、亚线性的算法;针对混杂错误,进行复合类型错误的检测和修复;针对知识缺少,通过众包技术进行数据质量管理。但是,大数据质量管理仍存在不足:缺乏对数据质量多维度相互影响的深入认识,尚无高效数据错误检测与修复算法设计,劣质数据近似计算理论与算法有待进一步研究。

猜你喜欢

多维度线性错误
渐近线性Klein-Gordon-Maxwell系统正解的存在性
在错误中成长
“多维度评改”方法初探
二阶线性微分方程的解法
多维度市南
《错误》:怎一个“美”字了得
多维度巧设听课评价表 促进听评课的务实有效
具有θ型C-Z核的多线性奇异积分的有界性
信息论翻译的多维度探索
可爱的错误等