数据发掘非常重要的一步：数据预处理

algums · 2019-8-15 06:38:17

为什么数据处理很重要？

对数据发掘熟习的小伙伴，数据处理相关的工作工夫占据了整个项目的70%以上。数据的质量，直接决议了模型的预测和泛化才能的好坏。它触及很多要素，包括：准确性、残缺性、分歧性、时效性、可信性和解释性。

而在真实数据中，我们拿到的数据能够包含了大量的缺失值，能够包含大量的噪音，也能够由于人工录入错误导致有异常点存在，非常不利于算法模型的训练。数据清洗的结果是对各种脏数据停止对应方式的处理，得到标准的、干净的、延续的数据，提供给数据统计、数据发掘等运用。

小编最近忙于数据发掘项目，抽了一些工夫停止了总结，希望对读者能有所自创，也欢迎关注公众号，尽量定期更新所思所想！

有哪些数据预处理的方法？

1、缺失值的处理

覆盖率较低，且重要性较低，可以直接将变量删除，否则带来噪声，影响结果

2、离群点处理

异常值是数据分布的常态，异常分为两种：“伪异常”和“真异常”，真异常由于数据本身分布异常，即离群点。次要有以下检测离群点的方法：

3、噪声处理

噪声是变量的随机误差和方差，是观测点和真实点之间的误差，

通常的处理办法：对数据停止分箱操作，等频或等宽分箱，然后用每个箱的平均数，中位数或者边界值（不同数据分布，处理方法不同）代替箱中一切的数，起到平滑数据的作用。

另外一种做法是，建立该变量和预测变量的回归模型，根据回归系数和预测变量，反解出自变量的近似值。

4、数据变换

数据变换包括对数据停止规范化，团圆化，稀疏化处理，达到适用于发掘的目的。

把酒笑春风 · 2019-8-15 13:34:23

厉害啊！

kelong520 · 2019-8-16 12:37:50

我也顶起出售广告位

久久久久久久 · 2019-8-17 15:57:08

支持楼主，用户楼主，楼主英明呀！！！

		自动登录	找回密码
密码			立即注册

数据发掘非常重要的一步：数据预处理

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们