找回密码
 立即注册
搜索

常用数据挖掘技术及原理

数据挖掘概述

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等。数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对人类产生重大影响的十大新兴技术之一。

相对于传统的统计分析技术,数据挖掘有如下一些特点:
    数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,需要强调的是基本的统计知识和技能是必需的。在信息化时代,数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析,所以数据挖掘工具的应用更加符合企业实践和实战的需要。从操作者来看,数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测。

数据挖掘在如下几个方面与统计分析形成了比较明显的差异:
    统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。在实践应用中,统计分析常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。

在企业的实践应用中,我们不应该硬性地把两者割裂开来,也无法割裂。

数据挖掘中的成熟技术及应用

1.决策树

决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据。决策树最大的优点:
    决策树产生的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。

最常用的3种决策树算法:
    CHAID:卡方自动相互关系检测,依据局部最优原则,利用卡方检验来选择对因变量最有影响的自变量,CHAID应用的前提是因变量为类别型变量。采用的是局部最优原则,即结点之间互不相干,一个结点确定了之后,下面的生长过程完全在结点内进行。把缺失数值作为单独的一类数值。CART:分类与回归树,分割逻辑与CHAID相同,检验标准是基尼系数(Gini)等不纯度的指标。CART则着眼于总体优化,即先让树尽可能地生长,然后再回过头来对树进行修剪。生产的决策树是二分的,每个结点只能分出两枝,并且在树的生长过程中,同一个自变量可以反复使用多次(分割),如果是自变量存在数据缺失(Missing)的情况,处理方式将会是寻找一个替代数据来代替(填充)缺失值。ID3:迭代的二分器,自变量的挑选标准是基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小。C4.5采用信息增益率(Gain Ratio)代替了ID3中的信息增益度量。信息增益倾向于选择具有大量值的属性(如属性为id这个信息增益很高,实际没什么作用的属性时就会出错)。C4.5在信息增益的基础上,增加了一个分裂信息对其进行规范化约束。

主要用途:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。

2.神经网络

“神经网络”就是通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中,隐蔽层所包含的就是非线性函数。

目前最主流的“神经网络”算法是反馈传播,该算法在多层前向型神经网络上进行学习,而多层前向型神经网络又是由一个输入层、一个或多个隐蔽层以及一个输出层组成的。



“神经网络”拥有特有的大规模并行结构和信息的并行处理等特点,因此它具有良好的自适应性、自组织性和高容错性,并且具有较强的学习、记忆和识别功能。

“神经网络”的主要缺点就是其知识和结果的不可解释性,没有人知道隐蔽层里的非线性函数到底是如何处理自变量的。

影响神经网络模型结果的5大因素:
    层数。每层中输入变量的数量。联系的种类。联系的程度。转换函数,又称激活函数或挤压函数。

神经网络已经在信号处理、模式识别、专家系统、预测系统等众多领域中得到广泛的应用。作为分类、预测问题的重要技术支持,在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。

3.回归

回归分析包括多元线性回归和逻辑斯蒂回归。在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。

多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。

在用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。

对多元线性回归方程的参数估计,是基于下列假设的(如果不满足以下假设,就不能用最小二乘法进行回归系数的估算了):
    输入变量是确定的变量,不是随机变量,而且输入的变量间无线性相关,即无共线性。随机误差的期望值总和为零,即随机误差与自变量不相关。随机误差呈现正态分布。

逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量与自变量的关系了:



最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小,估值方差小。

4.关联规则

关联规则数据挖掘的主要目的是找出数据集中的频繁模式,即多次重复出现的模式和并发关系,即同时出现的关系,频繁和并发关系也称作关联。

购物篮分析:婴儿尿不湿→啤酒[支持度=10%,置信度=70%]。

支持度和置信度是衡量关联规则强度的两个重要指标,它们分别反映着所发现规则的有用性和确定性。

支持度:规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有用性,如果支持度太小,则说明相应规则只是偶发事件。

置信度:规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比。置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠地推断出Y来。

常用的关联规则数据挖掘算法——Apriori算法:
    生成所有的频繁项目集。一个频繁项目集(Frequent Itemset)是一个支持度高于最小支持度阀值的项目集。从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值的规则。

关联规则算法不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中,也有着重要用途。比如发现单词间的并发关系以及Web的使用模式等,这些都是Web数据挖掘、搜索及推荐的基础。

5.聚类

针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。

聚类分析的算法:
    划分的方法层次的方法基于密度的方法基于网格的方法基于模型的方法

划分的方法:

当给定m个对象的数据集,以及希望生成的细分群体数量K后,即可采用这种方法将这些对象分成K组(K≤m),使得每个组内对象是相似的,而组间的对象是相异的。最常用的划分方法是K-Means方法,其具体原理是:首先,随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值或初始的组中心值;对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的(最相似)小组;然后,重新计算每个小组新的均值;这个过程不断重复,直到所有的对象在K组分布中都找到离自己最近的组。

层次的方法:

依次让最相似的数据对象两两合并,这样不断地合并,最后就形成了一棵聚类树。

聚类技术在数据分析和数据化运营中的主要用途表现在:既可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议,又可在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系等。

6.贝叶斯分类方法

主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。

贝叶斯定理:



X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。因为P(H|X)是后验概率,所以又称其为在条件X下,H的后验概率。P(H)和P(X)都是先验概率,是分别独立于X和H的。

如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察值是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯分类方法预测X属于类别Ci时,表示当且仅当P(Ci|X)>P(Cj|X)1≤j≤m,j≠i,此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,根据贝叶斯定理:



可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。

为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当P(Ci|X)>P(Cj|X)1≤j≤m,j≠i。

贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。

7.支持向量机

支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射,两类数据总可以被超平面分开。

设给定的训练样本集为{(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,y∈{-1,1}。

再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+b=0。



图中圆形和方形代表两类样本,H为分类线,H1、H2,分别为过各类样本中离分类线最近的样本并且平行于分类线的直线,它们之间的距离叫做分类间隔(Margin)。所谓的最优分类线就是要求分类线不但能将两类正确分开(训练错误为0),而且能使分类间隔最大。推广到高维空间,最优分类线就成了最优分类面。

其中,距离超平面最近的一类向量被称为支持向量,一组支持向量可以唯一地确定一个超平面。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器则可以最大化类与类的间隔,因而有较好的适应能力和较高的分类准确率。

缺点是训练数据较大。

优点是对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容易过拟合。

支持向量机主要用在预测、分类这样的实际分析需求场景中。

8.主成分分析

主成分分析会通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面是可以大幅降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。主要步骤:
    先进行各变量的标准化工作,标准化的目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。选择协方差阵或者相关阵计算特征根及对应的特征向量。计算方差贡献率,并根据方差贡献率的阀值选取合适的主成分个数。根据主成分载荷的大小对选择的主成分进行命名。根据主成分载荷计算各个主成分的得分。

将主成分进行推广和延伸即成为因子分析,因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中,每类变量即是一个因子。之所以称其为因子,是因为它们实际上是不可测量的,只能解释。

主成分分析是因子分析的一个特例,两者的区别和联系主要表现在以下方面:
    主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合。主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差。在主成分分析中,有几个原始变量就有几个主成分,而在因子分析中,因子个数可以根据业务场景的需要人为指定,并且指定的因子数量不同,则分析结果也会有差异。在主成分分析中,给定的协方差矩阵或者相关矩阵的特征值是唯一时,主成分也是唯一的,但是在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子。

主成分分析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面,同时作为统计学里的基本而重要的分析工具和分析方法,它们在一些专题分析中也有着广泛的应用。

9.假设检验

假设检验主要研究在一定的条件下,总体是否具备某些特定特征。

假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生。如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中,小概率事件没有发生,那么也只能说明没有足够理由相信假设是错误的,但是也并不能说明假设是正确的,因为无法收集到所有的证据来证明假设是正确的。

假设检验的结论是在一定的显著性水平下得出的。因此,当采用此方法观测事件并下结论时,有可能会犯错,这些错误主要有两大类:
    当原假设为真时,却否定原假设,即拒绝正确假设的错误,也叫弃真错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,α=1-置信度。当原假设为假时,却肯定原假设,即接受错误假设的错误,也叫纳伪错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。

上述这两类错误在其他条件不变的情况下是相反的,即α增大时,β就减小;α减小时,β就增大。α错误容易受数据分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05,也可以取0.1或0.001。

假设检验最常用的场景就是用于“运营效果的评估”上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

shenshike 2022-6-20 21:14:32 显示全部楼层
转发了
回复

使用道具 举报

520131420 2022-6-20 21:15:22 显示全部楼层
转发了
回复

使用道具 举报

嘟嘟之家 2022-6-23 07:59:20 显示全部楼层
我只是路过,不发表意见
回复

使用道具 举报

沙13076142896 2022-6-23 19:26:09 显示全部楼层
前排支持下了哦~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies