找回密码
 立即注册
搜索

从相关性分析到有监督学习,浅谈数据发掘分析

相关性分析是我们做数据分析时最常用的一种方法。我们在对业务停止分析时,都会思索哪几个环节时互相影响的,经过层层推理,找到工作中的关键成绩,从而改进业务,提高工作效率。业务环节互相影响,在数据上的表现就是具有相关性。

我们按照数据的类型来说下,在做数据分析时会碰到哪些相关性分析。

首先,是延续型变量(数值)之间的相关性,这也是最常碰到的。我们会用相关系数来分析,最常用的当然是皮尔逊(Pearson)相关系数,取值-1到1之间,相对值越接近于1表示相关性越强,正负表示正相关和负相关。另外还有Spearman相关系数和Kendall相关系数,运用的条件不同,在此不深化引见了。实践上我们普通分析都是线性相关性,延续型变量的相关性除了用相关系数来分析外,还可以用散点图来分析。




假如存在线性相关性,在散点图上会趋近一条直线。

另外,就是延续型变量和分类型(字符型)变量之间的相关性了,这就计算不了相关系数了,在这里可以用方差分析来判别他们之间的相关性,方差分析实践上在检验几组样本的均值能否相等,就像做对照实验一样,把延续型变量按照分类型变量的取值停止分组,再比较每组的均值能否相等,相等阐明分组对延续型变量的取值没有影响,阐明他们之间没有相关性,反之,他们是有相关性的。




最后,就是分类型变量之间的相关性,可以运用列联表来分析,停止卡方检验,可以得到能否相关的结论。




大致说了相关性分析之后,我们再来看有监督学习。有监督学习是机器学习里的概念,是指从有标记的训练数据中推导出预测函数,详细来说就分类和回归成绩。其实,我们也可以从相关性分析的角度来了解有监督学习,这里的有标记的数据,实践上就是我们要分析的数据字段,相关性分析时我们往往只是在分析两个字段,1对1 的,而有监督学习,我们要分析的是多个字段了,是多对1了,分析多个字段综合起来与一个字段的相关性,这个1就是训练数据中的标记字段,假如这个标记字段是分类型的,就是分类成绩,假如这个标记字段是延续型的,就是回归成绩,可以说有监督学习的本质还是在做相关性分析,只是愈加复杂了,不是一个相关系数能描画的规律了,往往我们得到的复杂的预测函数。这个函数描画了标记字段和多个影响要素之间的相关性,例如最好了解的2种模型:性回归方程和决策树。







在大数据时代,我们搜集到的数据越来越多,我们分析的手腕也要越来越深化了,从简单的数据可视化展现,渐渐的要过渡到更深层次的数据规律探求了,相关性分析是个很好的终点。更多干货,下次再分享哦。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

CrAzy_gIRl 2020-9-11 15:19:42 显示全部楼层
前排顶,很好!
回复

使用道具 举报

网络流氓 2020-9-12 08:21:05 来自手机 显示全部楼层
啥玩应呀
回复

使用道具 举报

柴鱼花生周 2020-9-12 21:25:41 显示全部楼层
我有个小建议,楼主把内容写详细点吧才会吸引更多读者呀。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies