2.聚类成绩
聚类与分类不同,聚类的类别预先是不清楚的,我们的目的就是要去发现这些类别。聚类的算法比较合适一些不确定的类别场景。
比如我们出去玩,捡了一大堆不同的树叶回来,你不知道这些树叶是从什么树上掉落的,但是你可以根据它们的大小、外形、纹路、边缘等特征给树叶停止划分,最后得到了三个较小的树叶堆,每一堆树叶都属于同一个种类。 3.回归成绩
简单来说,回归成绩可以看作高中学过的解线性方程组。它的最大特点是,生成的结果是延续的,而不像分类和聚类生成的是一种团圆的结果。
比如,运用回归的方法预测北京某个房子的总价(y),假设总价只跟房子的面积(x)有关,那么我们构建的方程式就是 ax+b=y。如何根据已知 x 和 y 的值解出 a 和 b 就是回归成绩要处理的。回归方法是经过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果。 4.关联成绩
关联成绩最常见的一个场景就是引荐,比如,你在京东或者淘宝购物的时分,在选中一个商品之后,往往会给你引荐几种其他商品组合,这种功能就可以运用关联发掘来完成。
数据发掘怎样做?
数据发掘,也是有方法论的。实践上,数据发掘经过了数十年的发展和有数专家学者的研讨,有很多人提出了残缺的流程框架,这对于我们来说几乎是福音。
当然,假如你在运用的过程中觉得这些东西有成绩,或者还有改进的空间,那也不要惧怕威望,尽信书则不如无书嘛。
在这里,我讲一个运用最多的 CRISP-DM(Cross-industry Standard Process for Data Mining,跨行业数据发掘标准流程)方法论,不要被这么长的名字吓到,这里我们先简单地了解数据发掘的操作步骤有哪些,后面我也会逐一详细讲解。
下面我们就来看一下,如何按照这 6 个步骤停止数据发掘。