智客公社
标题:
数据发掘非常重要的一步:数据预处理
[打印本页]
作者:
algums
时间:
2019-8-15 06:38
标题:
数据发掘非常重要的一步:数据预处理
[attach]179260[/attach]
[attach]179261[/attach]
为什么数据处理很重要?
对数据发掘熟习的小伙伴,数据处理相关的工作工夫占据了整个项目的70%以上。数据的质量,直接决议了模型的预测和泛化才能的好坏。它触及很多要素,包括:准确性、残缺性、分歧性、时效性、可信性和解释性。
而在真实数据中,我们拿到的数据能够包含了大量的缺失值,能够包含大量的噪音,也能够由于人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据停止对应方式的处理,得到标准的、干净的、延续的数据,提供给数据统计、数据发掘等运用。
小编最近忙于数据发掘项目,抽了一些工夫停止了总结,希望对读者能有所自创,也欢迎关注公众号,尽量定期更新所思所想!
有哪些数据预处理的方法?
1、缺失值的处理
删除变量:若变量的缺失率较高(大于80%),
覆盖率较低,且重要性较低,可以直接将变量删除,否则带来噪声,影响结果
。统计量填充:若缺失率较低且重要性较低,可以根据数据分布的状况停止填充。对于数据符合平均分布,用该变量的均值填补缺失,对于数据存在倾斜分布的状况,采用中位数停止填补。插值法填充:包括随机插值,多重差补法。哑变量填充:若变量是团圆型,且不同值较少,可转换成哑变量。
2、离群点处理
异常值是数据分布的常态,异常分为两种:“伪异常”和“真异常”,真异常由于数据本身分布异常,即离群点。次要有以下检测离群点的方法:
简单统计分析:根据箱线图、各分位点判别能否存在异常,例如pandas的describe函数可以疾速发现异常值。3 3倍标准差准绳:若数据存在正态分布,偏离均值的3倍标准差之外,范围内的点为离群点。基于相对离差中位数、间隔:应用聚类算法等
3、噪声处理
噪声是变量的随机误差和方差,是观测点和真实点之间的误差,
通常的处理办法:
对数据停止分箱操作
,等频或等宽分箱,然后用每个箱的平均数,中位数或者边界值(不同数据分布,处理方法不同)代替箱中一切的数,
起到平滑数据的作用
。
另外一种做法是,建立该变量和预测变量的回归模型,根据回归系数和预测变量,反解出自变量的近似值。
4、数据变换
数据变换包括对数据停止规范化,团圆化,稀疏化处理,达到适用于发掘的目的。
作者:
把酒笑春风
时间:
2019-8-15 13:34
厉害啊!
作者:
kelong520
时间:
2019-8-16 12:37
我也顶起出售广告位
作者:
久久久久久久
时间:
2019-8-17 15:57
支持楼主,用户楼主,楼主英明呀!!!
欢迎光临 智客公社 (http://bbs.cnaiplus.com/)
Powered by Discuz! X3.4