智客公社

标题: 数据分析和数据挖掘的具体方法 [打印本页]

作者: 齐齐 时间: 2022-6-15 23:02
标题: 数据分析和数据挖掘的具体方法
常见的数据处理技巧

数据的抽取要正确反应业务需求

数据抽样：抽样方法多种多样，视具体场景使用。

分析数据的规模有哪些具体的要求

重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。

如何处理缺失值和异常值

缺失值的常见处理方法

异常值的判断和处理：连续值和离散值的异常值的处理方式不尽相同。

异常值有时也有比较好的应用价值。

数据转换

产生衍生变量

改变分布

分箱

标准化

筛选有效的输入变量

为什么

结合业务经验进行先行筛选

用线性相关性指标进行初步筛选

[attach]736367[/attach]

R平方

[attach]736368[/attach]

[attach]736369[/attach]

卡方检验

[attach]736370[/attach]

WOE、IV、基尼系数

部分建模算法自身的筛选功能

降维的方法

最后的准则

既要贯彻落实上述种种有效的筛选输入变量的方法和原理，又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件，并加以权衡和折中。

共线性问题

如何识别共线性

如何处理共线性

常见的数据挖掘技术

聚类

聚类的场景：

主要聚类算法的分类：

注意事项：

扩展应用：

聚类分析在实际应用中的优势和缺点：

聚类分析结果的评价体系和评价指标：

预测响应（分类）模型

神经网络的应用优势：

[attach]736371[/attach]

神经网络的缺点和注意事项：

[attach]736372[/attach]

决策树

常见算法：CHAID、CART、ID3

应用优势：

[attach]736373[/attach]

缺点和注意事项：

[attach]736374[/attach]

除此之外，还有逻辑回归、多元线性回归、过拟合的处理等技术

作者: 仲恺花木 时间: 2022-6-15 23:03
转发了

作者: ada8242 时间: 2022-6-15 23:04
转发了

作者: levin2008 时间: 2022-6-15 23:05
转发了

作者: 翼搏阴天 时间: 2022-6-15 23:05
转发了

作者: @Xizi_MZoDWffA 时间: 2022-6-15 23:05
转发了

作者: 梦是反的么 时间: 2022-6-17 10:20

作者: 又月巴又月半 时间: 2022-6-18 14:47
老哥，这波稳

欢迎光临智客公社 (http://bbs.cnaiplus.com/)