找回密码
 立即注册
搜索

案例:数据发掘,到底能处理什么成绩?

数据发掘是一个高级数据分析师必须掌握的技能,经过建模和算法,数据发掘可以创造比基础的数据分析更大的价值。

明天,勾妹就带大家入门数据发掘~[机智]
什么是数据发掘?

假如非要给数据发掘一个定义的话,数据发掘就是寻觅数据中隐含的知识并用于产生商业价值。
也就是说,它是我们在数据中(尤其是在大量的数据中)找到一些有价值,甚至是非常有价值的东西的一种手腕。
为什么要做数据发掘?

技术与商业就像一对双生子,在互相促进中不断演进发展,随之而来的就是各大公司业务一日千里,很多新形式也涌现出来,使得数据量激增。
面对数以千万甚至上亿,以及不同方式的数据,很难再用纯人工,或者纯统计的方法从成千上万的变量中找到其隐含的价值。
我们需求一种规范的处理方案,可以应用并且充分应用这些数据里的每一个部分,经过一些自动化的机器学习算法,从数据中自动提取价值。
而数据发掘就提供了这样一系列的框架、工具和方法,可以处理不同类型的大量数据,并且运用复杂的算法部署,去探求数据中的形式。
总之,数据发掘的产生动因次要有以下 3 点。
海量数据。随着互联网技术的发展,数据的消费、搜集和存储也越来越方便,海量数据因此产生。比如,我们常用的微信,每天要产生超过 380 亿条数据;昔日头条每天要发布上百万的新文章;淘宝每天有上千万的包裹要发出。
维度众多。在一个多维度的数据中,每添加一个维度都会添加数据分析的复杂程度。比如点外卖事情触及的维度就有:阅读饭店的菜品(方式有文字、图片或言语、视频等)、阅读工夫、下单价格、买卖处理、分配配送员及 GPS 信息、完成订单后的评价等。
成绩复杂。通常用数据发掘处理的成绩都比较复杂,很难用一些规则或者简单的统计给出结果。假如让开发者写一个微波炉的智能控制逻辑,我想难度不是很大,即便是有十几个,甚至几十个按钮的控制中心也不过是多花费一点工夫而已。但假如编写一段代码来区分某图片中能否有一只猫咪,那要思索的成绩就太多了,运用传统的方法很难处理,而这恰恰是数据发掘所擅长的。
数据发掘有什么用途?

既然数据发掘是一种方法,那就要用它去处理一些成绩。下面我就来详细讲一下你最关怀的,也是最实践的成绩,数据发掘到底有什么用途。
1.分类成绩
分类成绩是最常见的成绩。比如旧事网站,判别一条旧事是社会旧事还是时政旧事,是体育旧事还是文娱旧事?这就是一个分类成绩,也就是对已知类别的数据停止学习,为新的内容标注一个类别。



2.聚类成绩
聚类与分类不同,聚类的类别预先是不清楚的,我们的目的就是要去发现这些类别。聚类的算法比较合适一些不确定的类别场景。
比如我们出去玩,捡了一大堆不同的树叶回来,你不知道这些树叶是从什么树上掉落的,但是你可以根据它们的大小、外形、纹路、边缘等特征给树叶停止划分,最后得到了三个较小的树叶堆,每一堆树叶都属于同一个种类。
3.回归成绩
简单来说,回归成绩可以看作高中学过的解线性方程组。它的最大特点是,生成的结果是延续的,而不像分类和聚类生成的是一种团圆的结果。
比如,运用回归的方法预测北京某个房子的总价(y),假设总价只跟房子的面积(x)有关,那么我们构建的方程式就是 ax+b=y。如何根据已知 x 和 y 的值解出 a 和 b 就是回归成绩要处理的。回归方法是经过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果。
4.关联成绩
关联成绩最常见的一个场景就是引荐,比如,你在京东或者淘宝购物的时分,在选中一个商品之后,往往会给你引荐几种其他商品组合,这种功能就可以运用关联发掘来完成。



数据发掘怎样做?

数据发掘,也是有方法论的。实践上,数据发掘经过了数十年的发展和有数专家学者的研讨,有很多人提出了残缺的流程框架,这对于我们来说几乎是福音。
当然,假如你在运用的过程中觉得这些东西有成绩,或者还有改进的空间,那也不要惧怕威望,尽信书则不如无书嘛。
在这里,我讲一个运用最多的 CRISP-DM(Cross-industry Standard Process for Data Mining,跨行业数据发掘标准流程)方法论,不要被这么长的名字吓到,这里我们先简单地了解数据发掘的操作步骤有哪些,后面我也会逐一详细讲解。
下面我们就来看一下,如何按照这 6 个步骤停止数据发掘。



1.业务了解(Business Understanding)
想象你在一个外贸公司下班,有一天,你的老板忽然给你说:“小明啊,你能不能训练一个模型来预测一下明年公司的利润呢?”
这就是一个业务需求了,若要处理这个成绩,首先要弄明白需求是什么,这就是业务了解,或者也可以叫作商业了解。比如,你要搞清楚什么是利润、利润的构成是什么样的、利润受什么影响,同时老板说的利润是净利润还是毛利润等成绩。
业务了解,宗旨是了解你的数据发掘要处理什么业务成绩。任何公司启动数据发掘,都是想为业务赋能,因此我们必须从商业或者从业务的角度去了解项目的要求和最终的目的,去分析整个成绩触及的资源、局限、想象,甚至是风险、不测等状况。从业务出发,到业务中去。
2.数据了解(Data Understanding)
明白了成绩,还要明白处理成绩需求什么数据。比如这个时分,你的老板又跟你说了:“小明啊,我想改改需求,能不能多做几个模型,把竞品公司明年的利润也都算算,我想对比一下。”但是“巧妇难为无米之炊”,你根本就没有这个数据,这个需求也就无从完成了。
数据了解阶段始于数据的搜集工作,但我以为重点是在业务了解的基础上,对我们所掌握的数据要有一个明晰、明白的看法,了解有哪些数据、哪些数据能够对目的有影响、哪些能够是冗余数据、哪些数据存在不足或缺失,等等。
需求留意的是,数据了解和业务了解是相反相成的,因此你在制定数据发掘计划的时分,不能只是单纯地谈需求,这也是大多数初入门的数据发掘工程师容易忽略的。数据了解得不好,很能够会导致你对业务需求的错误评价,从而影响后续进度甚至是结果。
3.数据预备(Data Preparation)
完成下面两个步骤后,我们就可以预备数据了。你需求找销售要销售数据,找采购要采购数据,找财务要各种支出、支出数据,然后整理一切需求用到的数据,想办法补全那些缺失的数据,计算各种统计值,等等。
数据预备就是基于原始数据,去构建数据发掘模型所需的数据集的一切工作,包括数据搜集、数据清洗、数据补全、数据整合、数据转换、特征提取等一系列动作。
理想上,在大多数的数据发掘项目中,数据预备是最困难、最艰巨的一步。假如你的数据足够干净和残缺,那么在建模和评价阶段所付出的精神就越少,甚至都不必去运用什么复杂的模型就可以得到足够好的效果,所以这个阶段也是非常重要的。
4.构建模型(Modeling)
也可以叫作训练模型,在这一阶段,我们会把预备好的数据喂给算法,所以这个阶段重点处理的是技术方面的成绩,会选用各种各样的算法模型来处理数据,让模型学习数据的规律 ,并产出模型用于后续的工作。
对于同一个数据发掘的成绩类型,可以有多种方法选择运用。假如有多重技术要运用,那么在这一义务中,对于每一个要运用的技术要分别对待。一些建模方法对数据的方式有详细的要求,比如 SVM 算法只能输入数值型的数据,等等 。因此,在这一阶段,重新回到数据预备阶段执行某些义务有时是非常必要的。
5.评价模型(Evaluation)
在模型评价阶段,我们曾经建立了一个或多个高质量的模型。但是模型的效果如何,能否满足我们的业务需求,就需求运用各种评价手腕、评价目的甚至是让业务人员一同参与出去,彻底地评价模型,回顾在构建模型过程中所执行的每一个步骤,以确保这些模型达到了目的。在评价之后会有两种状况,一种是评价经过,进入到上线部署阶段;另一种是评价不经过,那么就要反过来再停止迭代更新了。
6.模型部署(Deployment)
整理了数据,研讨了算法模型,并经过了多方评价,终于到了部署阶段。此时能够还要处理一些实践的成绩,比如长期运转的模型能否有足够的机器来支撑,数据量以及并发程度会不会形成我们部署的服务出现成绩,等等。
但是,关于数据发掘的生命周期能够还远未结束,关于一些特殊状况的出现能够照旧无法处理,以及在后续的进程中,随着新数据的消费以及变化,我们的模型照旧会发生一些变化。所以部署是一个发掘项目的结束,也是一个数据发掘项目的末尾。

总结


以上就是明天关于数据发掘的内容啦!大家在往常可以多找一些材料来学习,假如大家还有补充的话,
欢迎离开公众号:勾勾谈数据分析
和勾勾一同讨论哦!!!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

hyby999999 2020-11-25 07:19:26 显示全部楼层
撸过
回复

使用道具 举报

W帅哥哥也 2020-11-25 21:02:05 来自手机 显示全部楼层
啊啊啊啊啊啊啊啊啊啊啊
回复

使用道具 举报

薰轩 2020-11-26 19:58:06 来自手机 显示全部楼层
想知道楼主的感受,怎么样?
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies