智客公社

标题: 数据发掘非常重要的一步：数据预处理 [打印本页]

作者: algums 时间: 2019-8-15 06:38
标题: 数据发掘非常重要的一步：数据预处理

[attach]179260[/attach]

[attach]179261[/attach]

为什么数据处理很重要？

对数据发掘熟习的小伙伴，数据处理相关的工作工夫占据了整个项目的70%以上。数据的质量，直接决议了模型的预测和泛化才能的好坏。它触及很多要素，包括：准确性、残缺性、分歧性、时效性、可信性和解释性。

而在真实数据中，我们拿到的数据能够包含了大量的缺失值，能够包含大量的噪音，也能够由于人工录入错误导致有异常点存在，非常不利于算法模型的训练。数据清洗的结果是对各种脏数据停止对应方式的处理，得到标准的、干净的、延续的数据，提供给数据统计、数据发掘等运用。

小编最近忙于数据发掘项目，抽了一些工夫停止了总结，希望对读者能有所自创，也欢迎关注公众号，尽量定期更新所思所想！

有哪些数据预处理的方法？

1、缺失值的处理

覆盖率较低，且重要性较低，可以直接将变量删除，否则带来噪声，影响结果

2、离群点处理

异常值是数据分布的常态，异常分为两种：“伪异常”和“真异常”，真异常由于数据本身分布异常，即离群点。次要有以下检测离群点的方法：

3、噪声处理

噪声是变量的随机误差和方差，是观测点和真实点之间的误差，

通常的处理办法：对数据停止分箱操作，等频或等宽分箱，然后用每个箱的平均数，中位数或者边界值（不同数据分布，处理方法不同）代替箱中一切的数，起到平滑数据的作用。

另外一种做法是，建立该变量和预测变量的回归模型，根据回归系数和预测变量，反解出自变量的近似值。

4、数据变换

数据变换包括对数据停止规范化，团圆化，稀疏化处理，达到适用于发掘的目的。

作者: 把酒笑春风 时间: 2019-8-15 13:34
厉害啊！

作者: kelong520 时间: 2019-8-16 12:37
我也顶起出售广告位

作者: 久久久久久久 时间: 2019-8-17 15:57
支持楼主，用户楼主，楼主英明呀！！！

欢迎光临智客公社 (http://bbs.cnaiplus.com/)