智客公社
标题:
数据分析和数据挖掘的具体方法
[打印本页]
作者:
齐齐
时间:
2022-6-15 23:02
标题:
数据分析和数据挖掘的具体方法
常见的数据处理技巧
数据的抽取要正确反应业务需求
真正熟悉业务背景确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变
数据抽样:抽样方法多种多样,视具体场景使用。
分析数据的规模有哪些具体的要求
重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。
如何处理缺失值和异常值
缺失值的常见处理方法
数据分析师首先应该知道数据缺失的原因对于数据的缺失进行判断直接删除带有缺失值的数据元组(或观察对象)直接删除有大量缺失值的变量对缺失值进行替换对缺失值进行赋值
异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。
异常值有时也有比较好的应用价值。
数据转换
产生衍生变量
改变分布
分箱
标准化
筛选有效的输入变量
为什么
提高模型稳定型提高模型预测能力提高运算速度和运算效率的需要
结合业务经验进行先行筛选
用线性相关性指标进行初步筛选
[attach]736367[/attach]
R平方
[attach]736368[/attach]
[attach]736369[/attach]
卡方检验
[attach]736370[/attach]
WOE、IV、基尼系数
通过WOE的变化来调整出最佳的分箱阈值通过IV或者Gini筛选出有较高预测价值的自变量
部分建模算法自身的筛选功能
降维的方法
最后的准则
既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中。
共线性问题
如何识别共线性
相关系数模型结论主成分分析违背业务经验聚类
如何处理共线性
变量取舍变量组合变量转换
常见的数据挖掘技术
聚类
聚类的场景:
目标用户的群体分类不同产品的价值组合探测、发现孤立点、异常值
主要聚类算法的分类:
划分方法层次方法基于密度的方法基于网格的方法
注意事项:
处理数据噪声和异常值数据标准化聚类变量的少而精
扩展应用:
聚类的核心指标与非聚类的业务指标相辅相成数据的探索和清理工具个性化推荐的应用
聚类分析在实际应用中的优势和缺点:
优点:聚类算法成熟;聚类业务解释度好;简洁、高效;不依赖顺序缺点:需要提前指定k;异常值敏感
聚类分析结果的评价体系和评价指标:
业务专家评估指标:RMSSTD、R-Square、SPR、Distance Between Clusters
预测响应(分类)模型
神经网络的应用优势:
[attach]736371[/attach]
神经网络的缺点和注意事项:
[attach]736372[/attach]
决策树
常见算法:CHAID、CART、ID3
应用优势:
[attach]736373[/attach]
缺点和注意事项:
[attach]736374[/attach]
除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术
作者:
仲恺花木
时间:
2022-6-15 23:03
转发了
作者:
ada8242
时间:
2022-6-15 23:04
转发了
作者:
levin2008
时间:
2022-6-15 23:05
转发了
作者:
翼搏阴天
时间:
2022-6-15 23:05
转发了
作者:
@Xizi_MZoDWffA
时间:
2022-6-15 23:05
转发了
作者:
梦是反的么
时间:
2022-6-17 10:20
作者:
又月巴又月半
时间:
2022-6-18 14:47
老哥,这波稳
欢迎光临 智客公社 (http://bbs.cnaiplus.com/)
Powered by Discuz! X3.4