数据产品经理之数据分析与发掘

大唐制作 · 2019-12-3 10:08:06

本文次要跟大家讲讲，如何经过数据分析和数据发掘从数据中获取相关信息和发掘价值，enjoy~

自2014年以来，“大数据”延续六年进入国务院政府工作报告，彰显出国家对于大数据战略的注重。作为如今互联网+过程中最火热的关键词之一，大数据越来越火，随之而来的数据仓库、数据安全、数据分析、数据发掘等围绕大数据的商业价值发掘应用相关的技术和知识越来越惹起政府、企业和求职者的注重。

其中，作为数据产品经理必备的专业知识之一的数据分析可以分为广义的数据分析和广义的数据分析，广义的数据分析就包括广义的数据分析和数据发掘，人们常常提到的数据分析是指广义的数据分析，数据发掘和数据分析都是从数据中提取一些有价值的信息，但互相的侧重点又有所不同。

后面两篇文章引见了数据产品经理日常工作中必备的知识之常用的图表设计（数据产品经理之图表设计）和SQL言语（数据产品经理必备之SQL基础），本篇文章讲一讲怎样样经过数据分析与发掘从数据中获取信息和发掘价值。

一、基本概念

（1）数据分析

数据分析是指根据分析目的，用适当的统计分析方法及工具，对搜集来的数据停止处理与分析，提取有价值的信息，发挥数据的作用。

（2）数据发掘

数据发掘是指从大量的、有噪声的、不完全的、模糊的和随机的数据中，经过统计学、人工智能、机器学习等方法，发掘出未知的、有价值的信息和知识的过程。

（3）统计分析方法

数据分析时需求选择合适的统计分析方法停止数据的分析，常用统计分析方法有集中趋向、团圆程度、相关强度、参数估计、假设检验等，经过常用统计分析方法可以描画数据的特征。

（4）数据发掘方法

数据发掘时需求运用数据发掘方法来从数据中发掘价值，常用数据发掘的方法有分类、回归、关联、聚类等，这些方法可以从不同的角度对数据停止发掘。

二、统计分析方法

统计分析方法，按不同的分类标准可划分为不同的类别，而常用的分类标准是功能标准，依此标准停止划分，统计分析可分为描画统计和推断统计。

描画统计是将研讨中所得的数据加以整理、归类、简化或绘制成图表，以此描画和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描画统计次要触及数据的集中趋向、团圆程度和相关强度，最常用的方法有平均数、标准差、相关系数等。

推断统计指用概率方式来决断数据之间能否存在某种关系及用样本统计值来揣测总体特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验，最常用的方法有Z检验、T检验、卡方检验等。

描画统计和推断统计是统计分析时需求用到的方法，二者彼此联络，相反相成，描画统计是推断统计的基础，推断统计是描画统计的升华。

1. 集中趋向

集中趋向又称“数据的中心地位”、“集中量数”等，集中趋向所反映的是一组材料中各种数据所具有的共同趋向，即材料的各种数据所集聚的地位。因此，它是对变量数列停止分析的首要目的，它往往作为总体的代表程度同其他与之同质的总体停止比较。集中趋向可以对总体的某一特征具有代表性，表明所研讨的数据在一定工夫和空间条件下的共异性质和普通程度。

集中趋向分析时常用的有平均数、中位数和众数等。

2. 团圆程度

团圆程度是指一个分布紧缩和拉伸的程度。团圆程度可以反应个体特例的状况，可以阐明集中趋向的代表性如何，还可在统计推断时用来计算误差的大小。另外，团圆程度还被用来阐明事物在发展变化过程中的平衡性、节拍性和波动性等成绩。

团圆程度次要有方差、标准差和四分位距等。

3. 相关程度

相关程度是研讨随机变量之间的相关关系的一种统计方法，相关程度显示两个随机变量之间线性关系的强度和方向，次要研讨现象之间能否存在某种依存关系，并对详细有依存关系的现象讨论其相关方向以及相关状况。

数据的相关程度分析时常见的相关系数有Pearson相关系数、Spearman等级相关系数、Kendall等级相关系数、净相关、相关比等。

4. 参数估计

参数估计是根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。在对数据停止统计分析时，对于知道其分布方式的总体，用若干未知参数来表示，研讨总体分布，首先就要估计出参数的取值，这样的成绩就是参数估计成绩。

参数估计从估计方式看，区分为点估计与区间估计;从构造估计量的方法讲，有矩估计、最小二乘估计、似然估计、贝叶斯估计等。

5. 假设检验

假设检验是用于检验统计假设的一种方法。而“统计假设”是可经过观察一组随机变量的模型停止检验的迷信假说。一旦能估计未知参数，就会希望根据结果对未知的真正参数值做出适当的推论。统计上对参数的假设，就是对一个或多个参数的阐述。

假设检验，又称统计假设检验，是用来判别样本与样本、样本与总体的差异是由抽样误差惹起还是本质差别形成的统计推断方法。假设检验基本原理是先对总体的特征作出某种假设，然后经过抽样研讨的统计推理，对此假设应该被回绝还是接受作出推断。

假设检验的种类包括：t检验，Z检验，卡方检验，F检验等等。

三、数据发掘方法

数据发掘方法按照能否有目的变量可分为有监督学习的预测性方法和无监督学习的描画性方法。

预测性方法经过对所提供数据集运用特定方法分析所获得的一个或一组数据模型，并将该模型用于预测将来新数据的有关性质，包括分类和回归。

描画性方法以简约概述的方式表达数据中的存在一些有意义的性质，分为聚类和关联。

1. 分类

分类是找出数据中的一组数据对象的共同特点并按照分类形式将其划分为不同的类，其目的是经过分类模型，将数据中的数据项映射到某个给定的类别中。

分类的输入变量为团圆型，常见的分类方法包括（朴素）贝叶斯、决策树、逻辑回归、KNN、SVM、支持向量机、神经网络、随机森林和逻辑回归等。

分类可以运用到触及到运用分类、趋向预测中，如用户分层、用户商品引荐、用户流失率、促销活动呼应等。

2. 回归

回归分析反映了数据中数据的属性值的特性，经过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以运用到对数据的预测及相关关系的研讨中去。

回归的输入变量为延续型，常见的回归方法有线性回归、多项式回归、岭回归、套索回归、弹性网络回归等

回归可以运用到销量预测、备货管理中，如经过回归分析对电商商品的销售趋向作出预测。

3. 聚类

聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立笼统概念，发现数据的分布形式，探求能够的数据属性之间的互相关系。

聚类相似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。

细分市场、细分客户群体都属于数据发掘中的聚类成绩，例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。

聚类可以完成对样本的细分，使得同组内的样本特征较为相似，不同组的样本特征差异较大。例如批发场景中对客户的细分，然后针对不同类别的客户停止对应营销。

4. 关联

关联是隐藏在数据项之间的关联或互相关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的发掘过程次要包括两个阶段：

关联指的是发现数据的各部分之间的联络和规则，常见的关联分析算法包括Aprior算法、Carma算法，序列算法等。

关联常用于预测客户的需求，例如消费者常常会同时购买哪些产品，从而有助于商家的捆绑销售。

本文由 @ Eric 原创发布于人人都是产品经理。未经答应，制止转载

题图来自Unsplash，基于CC0协议

南方沈艺 · 2019-12-3 16:49:45

加油！不要理那些键盘侠！

Cci慕斯 · 2019-12-4 13:12:08

发发呆，回回帖，工作结束~

草绿色 · 2019-12-5 12:43:07

佩服佩服！

		自动登录	找回密码
密码			立即注册

数据产品经理之数据分析与发掘

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们