智客公社

标题: 数据发掘非常重要的一步:数据预处理 [打印本页]

作者: algums    时间: 2019-8-15 06:38
标题: 数据发掘非常重要的一步:数据预处理
[attach]179260[/attach]

[attach]179261[/attach]

为什么数据处理很重要?

对数据发掘熟习的小伙伴,数据处理相关的工作工夫占据了整个项目的70%以上。数据的质量,直接决议了模型的预测和泛化才能的好坏。它触及很多要素,包括:准确性、残缺性、分歧性、时效性、可信性和解释性。

而在真实数据中,我们拿到的数据能够包含了大量的缺失值,能够包含大量的噪音,也能够由于人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据停止对应方式的处理,得到标准的、干净的、延续的数据,提供给数据统计、数据发掘等运用。

小编最近忙于数据发掘项目,抽了一些工夫停止了总结,希望对读者能有所自创,也欢迎关注公众号,尽量定期更新所思所想!

有哪些数据预处理的方法?

1、缺失值的处理

2、离群点处理

异常值是数据分布的常态,异常分为两种:“伪异常”和“真异常”,真异常由于数据本身分布异常,即离群点。次要有以下检测离群点的方法:

3、噪声处理

噪声是变量的随机误差和方差,是观测点和真实点之间的误差,

通常的处理办法:对数据停止分箱操作,等频或等宽分箱,然后用每个箱的平均数,中位数或者边界值(不同数据分布,处理方法不同)代替箱中一切的数,起到平滑数据的作用

另外一种做法是,建立该变量和预测变量的回归模型,根据回归系数和预测变量,反解出自变量的近似值。

4、数据变换

数据变换包括对数据停止规范化,团圆化,稀疏化处理,达到适用于发掘的目的。
作者: 把酒笑春风    时间: 2019-8-15 13:34
厉害啊!
作者: kelong520    时间: 2019-8-16 12:37
我也顶起出售广告位
作者: 久久久久久久    时间: 2019-8-17 15:57
支持楼主,用户楼主,楼主英明呀!!!




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4