找回密码
 立即注册
搜索

数据分析和数据发掘的详细方法

常见的数据处理技巧

数据的抽取要正确反应业务需求
    真正熟习业务背景确保抽取的数据所对应的当时业务背景,与如今的业务需求即将运用的业务背景没有分明的严重改变

数据抽样:抽样方法多种多样,视详细场景运用。

分析数据的规模有哪些详细的要求

重点是考量目的变量所对应的目的事情的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量普通控制在8-20个以上。

如何处理缺失值和异常值

缺失值的常见处理方法
    数据分析师首先应该知道数据缺失的缘由对于数据的缺失停止判别直接删除带有缺失值的数据元组(或观察对象)直接删除有大量缺失值的变量对缺失值停止交换对缺失值停止赋值

异常值的判别和处理:延续值和团圆值的异常值的处理方式不尽相反。

异常值有时也有比较好的运用价值。

数据转换

产生衍生变量

改变分布

分箱

标准化

挑选有效的输入变量

为什么
    提高模型波动型提高模型预测才能提高运算速度和运算效率的需求

结合业务阅历停止先行挑选

用线性相关性目的停止初步挑选

R平方


卡方检验

WOE、IV、基尼系数
    经过WOE的变化来调整出最佳的分箱阈值经过IV或者Gini挑选出有较高预测价值的自变量

部分建模算法本身的挑选功能

降维的方法

最后的准绳

既要贯彻落实上述种种有效的挑选输入变量的方法和原理,又要在数据发掘商业实战中综合思索诸多环境要素和制约条件,并加以权衡和折中。

共线性成绩

如何辨认共线性
    相关系数模型结论主成分分析违犯业务阅历聚类

如何处理共线性
    变量取舍变量组合变量转换

常见的数据发掘技术

聚类

聚类的场景:
    目的用户的群体分类不同产品的价值组合探测、发现孤立点、异常值

次要聚类算法的分类:
    划分方法层次方法基于密度的方法基于网格的方法

留意事项:
    处理数据噪声和异常值数据标准化聚类变量的少而精

扩展运用:
    聚类的核心目的与非聚类的业务目的相反相成数据的探求和清算工具个性化引荐的运用

聚类分析在实践运用中的优势和缺陷:
    优点:聚类算法成熟;聚类业务解释度好;简约、高效;不依赖顺序缺陷:需求提早指定k;异常值敏感

聚类分析结果的评价体系和评价目的:
    业务专家评价目的:RMSSTD、R-Square、SPR、Distance Between Clusters

预测呼应(分类)模型

神经网络的运用优势:

神经网络的缺陷和留意事项:

决策树

常见算法:CHAID、CART、ID3

运用优势:

缺陷和留意事项:

除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

heromxs 2019-9-29 12:23:59 显示全部楼层
专业抢沙发的!哈哈
回复

使用道具 举报

梦萍 2019-9-30 15:44:33 显示全部楼层
愣着干嘛,鼓掌啊
回复

使用道具 举报

糕富帅来也 2019-10-1 19:28:38 显示全部楼层
顶一个,顶一个,顶一个
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies