智客公社

标题: 数据分析和数据挖掘的具体方法 [打印本页]

作者: 齐齐    时间: 2022-6-15 23:02
标题: 数据分析和数据挖掘的具体方法
常见的数据处理技巧

数据的抽取要正确反应业务需求

数据抽样:抽样方法多种多样,视具体场景使用。

分析数据的规模有哪些具体的要求

        重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。

如何处理缺失值和异常值

        缺失值的常见处理方法

        异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。

        异常值有时也有比较好的应用价值。

数据转换

        产生衍生变量

        改变分布

        分箱

        标准化

筛选有效的输入变量

        为什么

        结合业务经验进行先行筛选

        用线性相关性指标进行初步筛选

[attach]736367[/attach]

        R平方

[attach]736368[/attach]


[attach]736369[/attach]

        卡方检验

[attach]736370[/attach]

        WOE、IV、基尼系数

        部分建模算法自身的筛选功能

        降维的方法

        最后的准则

        既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中。

共线性问题

        如何识别共线性

        如何处理共线性

常见的数据挖掘技术

聚类

        聚类的场景:

        主要聚类算法的分类:

        注意事项:

        扩展应用:

        聚类分析在实际应用中的优势和缺点:

        聚类分析结果的评价体系和评价指标:

预测响应(分类)模型

        神经网络的应用优势:

[attach]736371[/attach]

        神经网络的缺点和注意事项:

[attach]736372[/attach]

        决策树

                常见算法:CHAID、CART、ID3

                应用优势:

[attach]736373[/attach]

                缺点和注意事项:

[attach]736374[/attach]

        除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术
作者: 仲恺花木    时间: 2022-6-15 23:03
转发了
作者: ada8242    时间: 2022-6-15 23:04
转发了
作者: levin2008    时间: 2022-6-15 23:05
转发了
作者: 翼搏阴天    时间: 2022-6-15 23:05
转发了
作者: @Xizi_MZoDWffA    时间: 2022-6-15 23:05
转发了
作者: 梦是反的么    时间: 2022-6-17 10:20

作者: 又月巴又月半    时间: 2022-6-18 14:47
老哥,这波稳




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4