智客公社

标题: 独家 | 一文读懂数据质量和验证检查(附代码) [打印本页]

作者: fengxuan1367    时间: 2018-10-4 12:03
标题: 独家 | 一文读懂数据质量和验证检查(附代码)
[attach]46745[/attach]
作者:Vinod Kumar 

翻译:季洋
校对:王雨桐
本文约1600字,建议阅读8分钟

本文主要讲述关于数据质量和验证检查的实例,以及运用Apache Spark和Scala采用编码来确保数据质量是多么容易。


大数据和机器学习都是和数据打交道。因此,在系统中保持数据的正确性就非常重要。如果数据不准确,不仅仅会降低系统的效率,还会得到一些不恰当的观点。通过数据质量和验证是确保数据正确性的重要步骤之一。随着数据量的不断增加,噪声数据也随之而来,每天都要引入新的方法和检验以确保数据的质量。由于数据量巨大,需要考虑的另一件事是如何确保快速处理这些检查和验证;例如,一个系统采用高分布式的方法来遍历每一条进入系统的数据。本文将讲述关于数据质量和验证检查的一些例子,以及在Apache Spark和Scala的帮助下运用程序来确保数据质量是多么简单。


数据准确性:指的是观测结果和真实值或可接受为真的值之间的接近度。




[attach]46746[/attach]





[attach]46748[/attach]



模式验证:每一批数据必须遵循相同的列名和数据类型。


[attach]46750[/attach]



同列下的值重复(如记录中重复的email)


[attach]46751[/attach]



唯一性检查: 各记录关于某列值是唯一不重复的,这一点和重复性检查类似。


[attach]46752[/attach]



正确性检查:可以使用正则表达式进行检查。例如,我们可以查找包含@的电子邮件id。


[attach]46753[/attach]



数据的普及性:你的数据有多及时?假定每天都有数据进入,随后要检查数据并打上时间戳。


数据的质量和验证检查的条目可以源源不绝,但是基于Spark和Scala的方法的好处是,用较少的代码,可以利用海量的数据达到更多目的。


有些时候,一个系统可能有某些特定的需求,这与谁需要这些数据以及以什么形式数据有关;同时这些数据使用者会对数据提出假设。


数据的可用性: 使用者可能对数据有特定要求,如:




[attach]46754[/attach]



然而这些被看作基本的数据验证,还有一些更高级别的检查来确保数据的质量,如:




比如给定维度,如基于时间的异常。这意味着在任何指定时间范围内(时间片段),记录数不能超过平均值的x%。为了做到这点,运用Spark做法如下:






记录应该遵循一定的顺序。例如,在一天内,某个消费者的数据记录应该是从产生兴趣开始,点击,加载页面,加入购物车,最后以购买结束。这些可能只是部分记录,但它们应该遵循一定的顺序。为了检查顺序,运用Spark做法如下:








[attach]46755[/attach]







考虑到每天都有数据进入系统。让我们设想它的行为或接触点数据。为了简单起见,我们将每天的数据称为一‘批’。在每一批数据中,如果我们都会得到一组完全相同的故障,则一定存在跨批次的故障趋势。


如果故障是源于相同的一组email_id(邮箱号为一列字段),则这可能是自动程式行为的征兆。




如果向时间戳上加上30分钟,那么所有的记录都会有这30分钟的隐形偏倚。如此一来,如果预测算法想要使用这些数据,这种偏差将影响结果。


如果用来生成这些数据的算法有学习偏差,那么对一组数据会生成更多的默认值,随后用于其他数据。例如基于购买行为,它会预测出错误的购买者性别。
 
自动程式行为: 通常,一个自动程式行为如下:




原文标题:
Data Quality and Validation
原文链接:
https://dzone.com/articles/java-amp-apache-spark-for-data-quality-amp-validat


译者简介
[attach]46756[/attach]季洋,苏州某IT公司技术总监,从业20年,现在主要负责Java项目的方案和管理工作。对大数据、数据挖掘和分析项目跃跃欲试却苦于没有机会和数据。目前正在摸索和学习中,也报了一些线上课程,希望对数据建模的应用场景有进一步的了解。不能成为巨人,只希望可以站在巨人的肩膀上了解数据科学这个有趣的世界。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。


[attach]46757[/attach][attach]46758[/attach]
点击“阅读原文”拥抱组织




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4