找回密码
 立即注册
搜索

数据发掘非常重要的一步:数据预处理

algums 2019-8-15 06:38:17 显示全部楼层 阅读模式


为什么数据处理很重要?

对数据发掘熟习的小伙伴,数据处理相关的工作工夫占据了整个项目的70%以上。数据的质量,直接决议了模型的预测和泛化才能的好坏。它触及很多要素,包括:准确性、残缺性、分歧性、时效性、可信性和解释性。

而在真实数据中,我们拿到的数据能够包含了大量的缺失值,能够包含大量的噪音,也能够由于人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据停止对应方式的处理,得到标准的、干净的、延续的数据,提供给数据统计、数据发掘等运用。

小编最近忙于数据发掘项目,抽了一些工夫停止了总结,希望对读者能有所自创,也欢迎关注公众号,尽量定期更新所思所想!

有哪些数据预处理的方法?

1、缺失值的处理
    删除变量:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,否则带来噪声,影响结果。统计量填充:若缺失率较低且重要性较低,可以根据数据分布的状况停止填充。对于数据符合平均分布,用该变量的均值填补缺失,对于数据存在倾斜分布的状况,采用中位数停止填补。插值法填充:包括随机插值,多重差补法。哑变量填充:若变量是团圆型,且不同值较少,可转换成哑变量。

2、离群点处理

异常值是数据分布的常态,异常分为两种:“伪异常”和“真异常”,真异常由于数据本身分布异常,即离群点。次要有以下检测离群点的方法:
    简单统计分析:根据箱线图、各分位点判别能否存在异常,例如pandas的describe函数可以疾速发现异常值。3  3倍标准差准绳:若数据存在正态分布,偏离均值的3倍标准差之外,范围内的点为离群点。基于相对离差中位数、间隔:应用聚类算法等

3、噪声处理

噪声是变量的随机误差和方差,是观测点和真实点之间的误差,

通常的处理办法:对数据停止分箱操作,等频或等宽分箱,然后用每个箱的平均数,中位数或者边界值(不同数据分布,处理方法不同)代替箱中一切的数,起到平滑数据的作用

另外一种做法是,建立该变量和预测变量的回归模型,根据回归系数和预测变量,反解出自变量的近似值。

4、数据变换

数据变换包括对数据停止规范化,团圆化,稀疏化处理,达到适用于发掘的目的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

把酒笑春风 2019-8-15 13:34:23 显示全部楼层
厉害啊!
回复

使用道具 举报

kelong520 2019-8-16 12:37:50 显示全部楼层
我也顶起出售广告位
回复

使用道具 举报

支持楼主,用户楼主,楼主英明呀!!!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies