找回密码
 立即注册
搜索

数据分析&数据挖掘&数据科学的区别与联系



[img=546px,160]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/T8jKDMB8v0tiY4~tplv-tt-large.image?x-expires=1973236295&x-signature=8R91leAG1cVWH%2Bw13FeJdyJle3k%3D[/img]



lovedata作者:简杨君爱数据特邀讲师
7年数据分析、数据挖掘经验
就职于国内移动互联网商业智能服务商
擅长数据爬取、数据分析、可视化
数据挖掘及数据产品全链路流程
对搭建产品的数据指标体系
及构建机器学习型数据产品
有丰富经验



[img=25%,118]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/SibUMJ1D7bcZEP~tplv-tt-large.image?x-expires=1973236295&x-signature=2VkSq11fz0Y91jAu5gUS%2BiVxMr4%3D[/img]


本文目录:
    什么是数据挖掘?
    数据挖掘的工作内容
    数据挖掘的工作流程
    胜任数据挖掘岗位应该具备哪些能力
    数据岗位的职业发展与规划








什么是数据挖掘?


这点我要结合数据分析和数据科学来谈谈~


数据分析:

主要是用统计学的知识,对现有的数据进行分析,包括常见的描述性数据分析,探索性数据分析。比如我们会对每天每月每周用户数进行同比环比的对比分析、细分不同人群的交叉分析、以及我们可以利用数据可视化的方式去展示数据的整体情况,包括展示社交人群当中,他对于其他人就节点上的数据关联情况,其实这更多的就是使用到统计学的知识。


数据挖掘:
数据挖掘其实有一部分是包含的数据分析的,因为我们需要对数据进行比较深刻的理解,是需要去分析数据的整体情况,包括探索性数据分析,是现在挖掘当中比较重要的一个环节。通过数据挖掘的算法从数据中挖掘有用的信息。例如通过算法去挖掘用户购买的商品之间的关联,什么样的用户是高质量的用户等,这些问题都是需要我们从数据挖掘的角度去分析。


数据科学:
数据科学是相对比较综合的,它既包含像前面讲的统计分析,又包含数据挖掘的算法,同时还需要借助大数据以及计算机编程来实现更多的数据提取和分析,也需要将模型进行部署,所以说数据科学是相对比较综合的,它是涉及到数据中的各个环节,并不是单一一个环节,比如在企业当中需要去获取数据,它其实也是算是数据科学里面的一个环节。


数据科学家更多适用于相对比较成熟的一些公司,这类公司产品线特别多,需要利用数据来帮助公司进行决策,各个产品线如何利用数据工具提高用户运营效率等。对于一般垂直类公司,比如说他是做单一业务,基本只需要数据分析师来分析和挖掘更加贴切实际,因为如果需要运用到数据科学部,他是相对比较综合的。那如果企业达不到那个条件,工作内容当中会涉及数据分析和数据挖掘多一点。


像国内的一些大厂,包括腾讯、阿里巴巴,他其实有很多的产品线,产品线之间是有一些重复可以使用到的信息。例如淘宝天猫海淘,这三个产品都有一些共性,它属于购物的,那么在购物当中会有通过推荐或者广告流量来驱动用户去购买,所以多个不同产品,他本身是有共性的。对于这件事情的统一,就需要数据科学家去构建一个能够在不同的业务场景下的推荐的算法,这个落地执行是需要数据科学家去做这件事情的。








数据挖掘的工作内容


工作其实一般分两部分,一部分是项目上的数据挖掘,另外一部分是产品创新。


项目挖掘,主要是在公司层面上面不同的一些业务需求。例如我们在一家游戏公司,想要了解到用户对游戏的偏好,一款游戏这个产品他的活跃用户怎么去做个分析这类;在产品创新上,以打车应用为举例,就是我们打算怎么将用户的使用场景进行归纳总结,这样我们可以分不同的使用场景去贴近用户的服务,比如在下班的途中、或者下雨天的这个场景下,那在这些场景下怎么样去更好的服务用户等。


核心的工作可以概括为:当客户描述有一个需求,比如说什么下降了,然后去给他们做分析,给他们解释这个原因,然后辅助他们接下来的运营动作;相当于根据他们现有的一个数据情况,给他们提供了自己的方案,也就是解释原因,辅助他们运营。


更多的偏向于非标准的一个数据挖掘,因为我们一般很多的项目其实不一定是能够产品化的,所以会走数据挖掘的这个形式去处理。创新是相当于为客户提供了一个数据产品,给他们做了一个数据产品。创新它其实根据不同的业务,创新的一个方式、使用到的数据都是不一样的。


我这里举一个应用的使用场景的分类,就比如说现在的客户是游戏公司,他们其实只能做一个初步的分析,大部分游戏公司是没有做数据挖掘这种偏技术的,然后他会找一些专业的公司来帮助他们更精细化的去分析,去挖掘。因为不是每一家公司他都能够搭建模型,能够做好用户画像。对于这样的一个需求场景,需要专业的技术和分析团队提供更好的服务,因为它结合了很多的用户使用场景。对于甲方的游戏公司,以用户注册的时候收集的信息为主,进行分析大概是这样的。比如我们会做竞品分析,同行业分析挖掘。


如果是作为投资项目,更多的是要去从海量的产品里面去挖掘客户想要的、能够体现这个用户整体增长趋势的分析,或者当前行业的兴趣方向等,它其实是分不同的公司的。


比如说开发一款游戏,得知道用户是对哪一种游戏会更加感兴趣一点,就是在产品还没开发之前会做一件事情,就是调研。因为你不可能说你等到你产品做好之后,发现这个市场价值用户量很小,这个时候产品已经投入了很大的一个精力、成本。它是一个流程,从产品的开发之前的调研,然后到产品上线,再到这个产品整个的分析和挖掘。


我们就是使用数据解决公司在产品开发之前到产品开发中以及产品的生命周期的这些环节问题。







数据挖掘的工作流程




我这里用一个案例讲一下,比如说我们现在的客户是一家游戏公司,“这个月的的活跃用户数相比上个月下降了”,对于这个问题,我们首先是需要确定目标,我们需要去分析一下下降到底是什么原因产生的。


在这个过程当中,我们就需要去收集数据,包括我们这个月的活跃用户数多少,上个月的活跃用数多少,因为我们对于下降的这个概念是没有一个标准的,如果我们收集完数据之后,我们就能够知道这个月比上个月下降了20%,那么上个月比上上个月又提高了10%。


所以就可以看得到,如果运营当中没有去做更多的活动,以及运营策略的变化,它其实很难有这样的一个数据结果的,我们从收集到数据的这个过程,就可以慢慢的去挖掘这个数据是不是有这样的疑问,然后我们再去深入的挖掘。


再继续,我们需要去将数据进行拆分,因为前面只是满足了我们月的这个维度,我们也不了解他到底是那什么样的原因产生。就比如说我们的设备是会有安卓和ios 的,我们将用户机型进行拆分,就可以得到两个月的安卓跟ios活跃用户的比例,然后我们再进行对比分析,我们就能够发现,比如说发现安卓的用户下降了。


安卓活跃用户下降了,那么安卓用户下降有可能的因素,比如我们再去假设一个因素,这个月做了更新,然后这个更新可能会导致影响用户使用,就可以再从时间的维度上去去验证我们的假设,包括用户点击的这个时间节点,是不是跟我们上线的产品创建的这个时间节点吻合等。


以上主要是数据分析的工作。针对数据挖掘,可以这么理解我们想要知道什么样的用户才会流失,我们需要通过定义一个标准,也就是什么样的用户属于流失用户,定义完这个标准之后,我们去通过提取用户的一个数据特征,包括他的行为,再通过一些聚类或者回归的方式去把这批用户给找出来,这样就是通过挖掘的方式去进行工作。


数据挖掘更多的是从数据中去挖掘信息。如果只是分析相关或者因果,更多的是用到分析这个过程。但是如果想要使用的模型去识别我们的用户,就需要用到数据挖掘。





胜任数据挖掘岗位应该具备哪些能力


1、必须对数据有敏感度。这就是为什么我们数据分析、数据挖掘的工作,很多时候想要招的是工科生的一个原因,就在于他们会对于这种比较枯燥的数据,有更加高的数据敏感度。


文科生在一些数据的理解上可能会遇到困难,那么如果我们有一定的数据敏感度,使用统计学的知识,其实是可以很快速的定位到数据问题,包括我们怎么去对数据进行处理,清洗等。


2、行业经验。就是对于一些特定的场景,包括行业上项目经验。如果你是在游戏公司工作的,你肯定是知道用户的偏好,或者用户游戏兴趣爱好等,这些其实更有利于你在这分析当中假设建立。


3、会一门编程语言。我们现在互联网比较普及,很多数据的维度跟量级都是不断地在加深,这就增加了分析的难度。所以我们很多时候做数据处理,会遇到一些困难的,包括我们在处理文本数据的时候,其实是一种半结构化数据,如果我们现在是会一门编程语言,就会更好一点。比如使用Python,或者更高级一点的算法模型,都可以在这个基础上去学习。








数据岗位的职业发展与规划


1、确定行业。首先是对行业的喜好,就是说如果你这个不感兴趣,会觉得数据是很枯燥的。如果进入这个行业,在这个行业发展,需要去坚定数据是能够驱动企业经营分析的。


2、做职业规划。当你对整个数据分析数据挖掘流程比较熟悉的情况下,那你肯定会构建一个整体的框架,怎么样去完成这些事情,或者说用一个通用的方式去做这些事情。


那到了职业发展阶段,一般会分两个方向,一是往管理的方向,另外一个技术方向。如果你是喜欢做沟通交流,能够去跟进整个项目,是比较适合管理这个方向的;如果你是对算法或者对一些技术比较感兴趣,把它研究比较深,你可以往技术这个方向走,例如说技术顾问。所以我觉得应该是分阶段来讨论这个职业发展方向的,初入职场,一定先做一些基础工作,打基础学习阶段掌握技能,以了解整个行业的状况为主。


那后期肯定是需要去往管理或者技术方向继续提升。刚才有提到管理岗和技术岗,比如说数据产品经理,他其实偏向于要去沟通、跟进项目;像如果做一些开发类的工作,这个属于技术类。对应管理和技术有,不是完全独立,尤其越往上发展,管理和技术只是说侧重点不同。比如数据科学家,他是一个相对比较综合的岗位,有的情况下也可看成是管理岗。因为具体落地不一定需要他去做,是需要主导团队来完成,他需要对这个业务、算法十分的了解和熟悉,因此说他能够主导这个项目交付才是关键。


对于技术岗,一些前沿算法,以及能够在这个场景用什么样的算法,怎么样去做优化,是需要比团队其他成员这方面更加了解和熟悉。


3、应届生小伙伴。如果你是在大学,那肯定先接触学习统计基础知识会比较重要一点。如果有时间条件参加多一些比如说数据竞赛,能够提升项目经验,或者说利用的数据做分析挖掘,当你在求职的时候,有一个具体的案例来体现你的数据能力。我也觉得这是在想要去从事这个方向的同学需要去做的事情。


4、转行小伙伴。转行的同学,首先你有一定的行业经验,基于这行业经验你能够用数据去做什么样的事情,你这个事情是需要去做准备的,或者说你跨了一个行业,你能够从原来的行业或者以你现在的适应能力能为这个行业带来什么,或者能够做什么事情,就是需要去思考或者做好一个准备。







专属答疑从0到1项目实战一线大厂专家主讲
面试支持入职率95%










[img=546px,68]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/T7V2mjv7BqP3LD~tplv-tt-large.image?x-expires=1973236295&x-signature=XaJl6Gjhz6OINqjl2uh5wYdLR88%3D[/img]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

a1157815659 2022-7-15 21:56:24 显示全部楼层
赞一个!
回复

使用道具 举报

学习下
回复

使用道具 举报

2361096462ttt 2022-7-18 15:32:19 显示全部楼层
LZ敢整点更有创意的不?兄弟们等着围观捏~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies