找回密码
 立即注册
搜索

做好数据发掘模型的9条阅历总结

数据发掘是应用业务知识从数据中发现和解释知识(或称为形式)的过程,这种知识是以自然或者人工方式创造的新知识。




当前的数据发掘方式,是在20世纪90年代实际范畴诞生的,是在集成数据发掘算法平台发展的支撑下合适商业分析的一种方式。也许是由于数据发掘源于实际而非实际,在其过程的了解上不太引人留意。20世纪90年代早期发展的CRISP-DM,逐渐成为数据发掘过程的一种标准化过程,被越来越多的数据发掘实际者成功运用和遵照。

虽然CRISP-DM可以指点如何实施数据发掘,但是它不能解释数据发掘是什么或者为什么合适这样做。在本文中我将阐述我提出数据发掘的九种准绳或“定律”(其中大多数为实际者所熟知)以及另外其它一些熟知的解释。末尾从实际上(不只仅是描画上)来解释数据发掘过程。

我的目的不是回复CRISP-DM,但CRISP-DM的许多概念对于了解数据发掘是至关重要的,本文也将依赖于CRISP-DM的常见术语。CRISP-DM仅仅是阐述这个过程的末尾。

第一,目的律:业务目的是一切数据处理方案的源头

它定义了数据发掘的主题:数据发掘关注处理业务业成绩和完成业务目的。数据发掘次要不是一种技术,而是一个过程,业务目的是它的的核心。没有业务目的,没有数据发掘(不管这种表述能否清楚)。因此这个准绳也可以说成:数据发掘是业务过程。

第二,知识律:业务知识是数据发掘过程每一步的核心

这里定义了数据发掘过程的一个关键特征。CRISP-DM的一种朴素的解读是业务知识仅仅作用于数据发掘过程末尾的目的的定义与最后的结果的实施,这将错过数据发掘过程的一个关键属性,即业务知识是每一步的核心。

为了方便了解,我运用CRISP-DM阶段来阐明:

1.商业了解必须基于业务知识,所以数据发掘目的必须是业务目的的映射(这种映射也基于数据知识和数据发掘知识);

2.数据了解运用业务知识了解与业务成绩相关的数据,以及它们是如何相关的;

3.数据预处理就是应用业务知识来塑造数据,使得业务成绩可以被提出和解答(更详尽的第三条-预备律);

4.建模是运用数据发掘算法创建预测模型,同时解释模型和业务目的的特点,也就是说了解它们之间的业务相关性;

5.评价是模型对了解业务的影响;

6.实施是将数据发掘结果作用于业务过程

总之,没有业务知识,数据发掘过程的每一步都是有效的,也没有“纯粹的技术”步骤。业务知识指点过程产生有益的结果,并使得那些有益的结果得到认可。数据发掘是一个反复的过程,业务知识是它的核心,驱动着结果的持续改善。

这背后的缘由可以用“鸿沟的表现”(chasm of representation)来解释(Alan Montgomery在20世纪90年代对数据发掘提出的一个观点)。Montgomery指出数据发掘目的触及到理想的业务,但是数据仅能表示理想的一部分;数据和理想世界是有差距(或“鸿沟”)的。在数据发掘过程中,业务知识来补偿这一差距,在数据中无论发现什么,只要运用业务知识解释才能显示其重要性,数据中的任何遗漏必须经过业务知识补偿。只要业务知识才能补偿这种缺失,这是业务知识为什么是数据发掘过程每一步骤的核心的缘由。

第三,预备律:数据预处理比数据发掘其他任何一个过程都重要

这是数据发掘著名的格言,数据发掘项目中最费力的事是数据获取和预处理。非正式估计,其占用项目的工夫为50%-80%。最简单的解释可以概括为“数据是困难的”,常常采用自动化减轻这个“成绩”的数据获取、数据清算、数据转换等数据预处理各部分的工作量。

虽然自动化技术是有益的,支持者置信这项技术可以减 多数据预处理过程中的大量的工作量,但这也是曲解数据预处理在数据发掘过程中是必须的缘由。

数据预处理的目的是把数据发掘成绩转化为格式化的数据,使得分析技术(如数据发掘算法)更容易应用它。数据任何方式的变化(包括清算、最大最小值转换、增长等)意味着成绩空间的变化,因此这种分析必须是探求性的。

这是数据预处理重要的缘由,并且在数据发掘过程中占有如此大的工作量,这样数据发掘者可以从容地操纵成绩空间,使得容易找到合适分析他们的方法。

有两种方法“塑造”这个成绩空间。第一种方法是将数据转化为可以分析的完全格式化的数据,比如,大多数数据发掘算法需求单一表格方式的数据,一个记录就是一个样例。数据发掘者都知道什么样的算法需求什么样的数据方式,因此可以将数据转化为一个合适的格式。

第二种方法是使得数据可以含有业务成绩的更多的信息,例如,某些范畴的一些数据发掘成绩,数据发掘者可以经过业务知识和数据知识知道这些。经过这些范畴的知识,数据发掘者经过操纵成绩空间能够更容易找到一个合适的技术处理方案。

因此,经过业务知识、数据知识、数据发掘知识从根本上使得数据预处理愈加得心应手。数据预处理的这些方面并不能经过简单的自动化完成。

这个定律也解释了一个有疑义的现象,也就是虽然经过数据获取、清算、交融等方式创建一个数据仓库,但是数据预处理照旧是必不可少的,照旧占有数据发掘过程一半以上的工作量。

此外,就像CRISP-DM展现的那样,即便经过了次要的数据预处理阶段,在创建一个有用的模型的反复过程中,进一步的数据预处理的必要的。

第四,实验律(NFL律:No Free Lunch):对于数据发掘者来说,天下没有收费的午餐,一个正确的模型只要经过实验(experiment)才能被发现

机器学习有一个准绳:假如我们充分了解一个成绩空间(problem space),我们可以选择或设计一个找到最优方案的最有效的算法。一个杰出算法的参数依赖于数据发掘成绩空间一组特定的属性集,这些属性可以经过分析发现或者算法创建。

但是,这种观点来自于一个错误的思想,在数据发掘过程中数据发掘者将成绩公式化,然后应用算法找到处理方法。理想上,数据发掘者将成绩公式化和寻觅处理方法是同时停止的--算法仅仅是协助数据发掘者的一个工具。

有五种要素阐明实验对于寻觅数据发掘处理方案是必要的:

1.数据发掘项目的业务目的定义了兴味范围(定义域),数据发掘目的反映了这一点;

2.与业务目的相关的数据及其相应的数据发掘目的是在这个定义域上的数据发掘过程产生的;

3.这些过程受规则限制,而这些过程产生的数据反映了这些规则;

4.在这些过程中,数据发掘的目的是经过形式发现技术(数据发掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;

5.数据发掘需求在这个域上生成相关数据,这些数据含有的形式不可避免地遭到这些规则的限。

在这里强调一下最后一点,在数据发掘中改变业务目的,CRISP-DM有所暗示,但常常不易被察觉到。广为所知的CRISP-DM过程不是下一个步骤仅接着上一个步骤的“瀑布”式的过程。理想上,在项目中的任何地方都可以停止任何CRISP-DM步骤,异样商业了解也可以存在于任何一个步骤。

业务目的不是简 单地在末尾就给定,它贯穿于整个过程。这也答应以解释一些数据发掘者在没有明晰的业务目的的状况下末尾项目,他们知道业务目的也是数据发掘的一个结果,不是静态地给定。

Wolpert的“没有收费的午餐”实际曾经运用于机器学习范畴,无偏的形状好于(如一个详细的算法)任何其他能够的成绩(数据集)出现的平均形状。这是由于,假如我们思索一切能够的成绩,他们的处理方法是平均分布的,以致于一个算法(或偏倚)对一个子集是有利的,而对另一个子集是不利的。

这与数据发掘者所知的具有惊人的相似性,没有一个算法合适每一个成绩。但是经过数据发掘处理的成绩或数据集绝不是随机的,也不是一切能够成绩的平均分布,他们代表的是一个有偏向的样本,那么为什么要运用NFL的结论?答案触及到下面提到的要素:成绩空间初始是未知的,多重成绩空间能够和每一个数据发掘目的相关,成绩空间能够被数据预处理所操纵,模型不能经过技术手腕评价,业务成绩本身能够会变化。

由于这些缘由,数据发掘成绩空间在数据发掘过程中展开,并且在这个过程中是不断变化的,以致于在有条件的约束下,用算法模拟一个随机选择的数据集是有效的。对于数据发掘者来说:没有收费的午餐。

这大体上描画了数据发掘过程。但是,在有条件限制某些状况下,比如业务目的是波动的,数据和其预处理是波动的,一个可接受的算法或算法组合可以处理这个成绩。在这些状况下, 普通的数据发掘过程中的步骤将会减少。 但是,假如这种状况波动是持续的,数据发掘者的午餐是收费的,或者至少相对便宜的。像这样的波动性是暂时的,由于 对数据的业务了解(第二律)和对成绩的了解(第九律)都会变化的。

第五,形式律(大卫律):数据中总含有形式

这条规律最早由David Watkins提出。我们能够预料到一些数据发掘项目会失败,由于处理业务成绩的形式并不存在于数据中,但是这与数据发掘者的实际阅历并不相关。

前文的阐述曾经提到,这是由于:在一个与业务相关的数据集中总会发现一些风趣的东西,以致于即便一些希冀的形式不能被发现,但其他的一些有用的东西能够会被发现(这与数据发掘者的实际阅历是相关的);除非业务专家希冀的形式存在,否则数据发掘项目不会停止,这不应感到奇异,由于业务专家通常是对的。

但是,Watkins提出一个更简单更直接的观点:“数据中总含有形式。”这与数据发掘者的阅历比后面的阐述更分歧。这个观点后来经过Watkins修正,基于客户关系的数据发掘项目,总是存在着这样的形式即客户将来的行为总是和先前的行为相关,显然这些形式是有利可图的(Watkins的客户关系管理定律)。

但是,数据发掘者的阅历不只仅局限于客户关系管理成绩,任何数据发掘成绩都会存在形式(Watkins的通用律)。

Watkins的通用律解释如下:

1.数据发掘项目的业务目的定义了兴味范围(定义域),数据发掘目的反映了这一点;

2.与业务目的相关的数据及其相应的数据发掘目的是在这个定义域上的数据发掘过程产生的;

3.这些过程受规则限制,而这些过程产生的数据反映了这些规则;

4.在这些过程中,数据发掘的目的是经过形式发现技术(数据发掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;

5.数据发掘需求在这个域上生成相关数据,这些数据含有的形式不可避免地遭到这些规则的限制

总结这一观点:数据中总存在形式,由于在这过程中不可避免产生数据这样的副产品。为了发掘形式,过程从(你曾经知道它)——业务知识末尾。

应用业务知识发现形式也是一个反复的过程;这些形式也对业务知识有贡献,同时业务知识是解释形式的次要要素。在这种反复的过程中,数据发掘算法简单地衔接了业务知识和隐藏的形式。

假如这个解释是正确的,那么大卫律是完全通用的。除非没有相关的数据的保证,否则在每个定义域的每一个数据发掘成绩总是存在形式的。

第六,洞察律:数据发掘增大对业务的认知

数据发掘是如何产生洞察力的?这个定律接近了数据发掘的核心:为什么数据发掘必须是一个业务过程而不是一个技术过程。业务成绩是由人而非算法处理的。数据发掘者和业务专家从成绩中找到处理方案,即从成绩的定义域上达到业务目的需求的形式。

数据发掘完全或部分有助于这个认知过程。数据发掘算法揭示的形式通常不是人类以正常的方式所能看法到的。综合这些算法和人类正常的感知的数据发掘过程在本质上是矫捷的。在数据发掘过程中,成绩处理者解释数据发掘算法产生的结果,并一致到业务了解上,因此这是一个业务过程。

这相似于“智能放大器”的概念,在早期的人工智能的范畴,AI的第一个实践成果不是智能机器,而是被称为“智能放大器”的工具,它可以协助人类运用者提高获取有效信息的才能。数据发掘提供一个相似的“智能放大器”,协助业务专家处理他们不能单独完成的业务成绩。

总之,数据发掘算法提供一种超越人类以正常方式探求形式的才能,数据发掘过程允许数据发掘者和业务专家将这种才能交融在他们的各自的成绩的中和业务过程中。

第七,预测律:预测提高了信息泛化才能

“预测”曾经成为数据发掘模型可以做什么的可接受的描画,即我们常说的“预测模型”和“预测分析”。这是由于许多盛行的数据发掘模型常常运用“预测最能够的结果”(或者解释能够的结果如何有能够)。这种方法是分类和回归模型的典型运用。

但是,其他类型的数据发掘模型,比如聚类和关联模型也有“预测”的特征。这是一个含义比较模糊的术语。一个聚类模型被描画为“预测”一个个体属于哪个群体,一个关联模型能够被描画为基于已知基本属性“预测”一个或更多属性。

异样我们也可以分析“预测”这个术语在不同的主题中的运用:一个分类模型能够被说成可以预测客户行为--愈加确切的说它可以预测以某种确定行为的目的客户,即便不是一切的目的个体的行为都符合“预测”的结果。一个诈骗检测模型能够被说成可以预测个别买卖能否具有高风险性,即便不是一切的预测的买卖都有欺诈行为。

“预测”这个术语广泛的运用导致了所谓的“预测分析”被作为数据发掘的总称,并且在业务处理方案中得到了广泛的运用。但是我们应该看法到这不是日常所说的“预测”,我们不能希冀预测一个特殊个体的行为或者一个特别的欺诈调查结果。

那么,在这个意义下的“预测”是什么?分类、回归、聚类和关联算法以及他们集成模型有什么共性呢?答案在于“评分”,这是预测模型运用到一个新样例的方式。模型产生一个预估值或评分,这是这个样例的新信息的一部 分;在概括和归纳的基础上,这个样例的可应用信息得到了提高,形式被算法发现和模型详细化。值得留意的是这个新信息不是在“给定”意义上的“数据”,它仅有统计学意义。

第八,价值律:数据发掘的结果的价值不取决于模型的波动性或预测的准确性

准确性和波动性是预测模型常用的两个度量。准确性是指正确的预测结果所占的比例;波动性是指当创建模型的数据改变时,用于同一口径的预测数据,其预测结果变化有多大(或多小)。鉴于数据发掘中预测概念的核心角色,一个预测模型的准确性和波动性常被以为决议了其结果的价值的大小,实践上并非如此。

表现预测模型价值的有两种方式:一种是用模型的预测结果来改善或影响行为,另一种是模型可以传递导致改变策略的见解(或新知识)。

对于后者,传递出的任何新知识的价值和准确性的联络并不那么严密;一些模型的预测才能能够有必要使我们置信发现的形式是真实的。但是,一个难以了解的复杂的 或者完全不透明的模型的预测结果具有高准确性,但传递的知识也不是那么有见地;但是,一个简单的低准确度的模型能够传递出更有用的见解。

准确性和价值之间的分离在改善行为的状况下并不分明,但是一个突出成绩是“预测模型是为了正确的事,还是为了正确的缘由?” 换句话说,一个模型的价值和它的预测准确度一样,都源自它的业务成绩。

例如,客户流失模型能够需求高的预测准确度,否则对于业务上的指点不会那么有效。相 反的是一个准确度高的客户流失模型能够提供有效的指点,保留住老客户,但也仅仅是最少利润客户群体的一部分。假如不合适业务成绩,高准确度并不能提高模型 的价值。

模型波动性异样如此,虽然波动性是预测模型的风趣的度量,波动性不能代替模型提供业务了解的才能或处理业务成绩,其它技术手腕也是如此。

总之,预测模型的价值不是由技术目的决议的。数据发掘者应该在模型不损害业务了解和顺应业务成绩的状况下关注预测准确度、模型波动性以及其它的技术度量。

第九,变化律:一切的形式因业务变化而变化

数据发掘发现的形式不是永远不变的。数据发掘的许多运用是众所周知的,但是这个性质的普遍性没有得到广泛的注重。

数据发掘在市场营销和CRM方面的运用很容易了解,客户行为形式随着工夫的变化而变化。行为的变化、市场的变化、竞争的变化以及整个经济情势的变化,预测模型会因这些变化而过时,当他们不能准确预测时,该当定期更新。

数据发掘在欺诈模型和风险模型的运用中异样如此,随着环境的变化欺诈行为也在变化,由于罪犯要改变行为以保持抢先于反欺诈。欺诈检测的运用必须设计为就像处理旧的、熟习的欺诈行为一样可以处理新的、未知类型的欺诈行为。

某些种类的数据发掘能够被以为发现的形式不会随工夫而变化,比如数据发掘在迷信上的运用,我们有没有发现不变的普遍的规律?也许令人惊奇的是,答案是即便是这些形式也希冀得到改变。理由是这些形式并不是简单的存在于这个世界上的规则,而是数据的反应--这些规则能够在某些范畴的确是静态的。

但是,数据发掘发现的形式是认知过程的一部分,是数据发掘在数据描画的世界与观测者或业务专家的认知之间建立的一个动态过程。由于我们的认知在持续发展和增 长,所以我们也希冀形式也会变化。明天的数据表面上看起来相似,但是它能够曾经集合了不同的形式、(能够巧妙地)不同的目的、不同的语义;分析过程因受业 务知识驱动,所以会随着业务知识的变化而变化。基于这些缘由,形式会有所不同。

总之,一切的形式都会变化,由于他们不只反映了一个变化的世界,也反映了我们变化的认知。

后记:

这九条定律是关于数据发掘的简单的真知。这九条定律的大部分已为数据发掘者熟知,但仍有一些不熟习(例如,第五、第六、第七)。大多数新观点的解释都和这九条定律有关,它试图解释众所周知的数据发掘过程中的背后的缘由。

我们为什么何必在意数据发掘过程所采用的方式呢?除了知识和了解这些简单的诉求,有实真实在的理由去讨论这些成绩。

数据发掘过程以如今的方式存在是由于技术的发展——机器学习算法的普及以及综合其它技术集成这些算法的平台的发展,使得商业用户易于接受。我们能否应该希冀因技术的改变而改变数据发掘过程?最终它会改变,但是假如我们了解数据发掘过程构成的缘由,然后我们可以辨别技术可以改变的和不能改变的。

一些技术的发展在预测分析范畴具有革命性的作用,例如数据预处理的自动化、模型的重建以及在部署的框架里经过预测模型集成业务规则。数据发掘的九条定律及其 解释阐明:技术的发展不会改变数据发掘过程的本质。这九条定律以及这些思想的进一步发展,除了有对数据发掘者的教育价值之外,应该被用来判别将来任何数据 发掘过程革命性变化的诉求。

End

作者:09大数据网

來源:简书

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

xiao1521 2018-12-15 22:23:34 显示全部楼层
分享了
回复

使用道具 举报

站位支持
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies