智客公社

标题: 入行数据分析要知道何为数据挖掘及入门应用方法 [打印本页]

作者: 谢火箭    时间: 2022-10-16 21:55
标题: 入行数据分析要知道何为数据挖掘及入门应用方法
数据挖掘更像是从荒凉的草原上收获美味的果实,而不是在广阔的矿山中寻找金矿。不知道有没有金脉,但草原上肯定有果实。然而在实际数据中,有很多神秘数据无法使用,也有很多数据不清楚这棵树是否真的结出可食用的果实。首先我们要清理草原,但是清理这片辽阔的草原需要很多时间。实际收获果实通常需要 80% 的时间。
即使数据最终变得干净也必须想出各种想法,才能收获高效和有价值的规则的果实。



[attach]791074[/attach]

什么是数据挖掘

数据挖掘是一种技术,例如可以基于对每个客户的深刻理解,在公司与客户之间形成长期良好关系的方法和策略。更具体地说可以说是分析公司收集的大量数据,发现有用的模式和规则,并支持营销活动的统计方法和工具的集合。
其中最经典的案例是啤酒与尿布的故事,通过关联规则销售。大多数人会认为这只是一个轶事,没有确凿的证据表明将两者放在同一楼层实际上会增加销售额。甚至有人会认为消费周期决定的,或者是一个偶然现象。
数据挖掘的2种方法

比较数据挖掘和统计分析的区别,数据挖掘是知识发现,统计分析是假设检验,但真的是这样吗?
统计分析处理的数据量比较少,数据挖掘可能更多。数据挖掘也有知识发现的成分,但不是通过输入数据就能自动发现的。应该认识到数据挖掘有两种类型:不仅是知识发现,还有假设检验,就像统计分析一样。
在假设检验数据挖掘中,估计和理解 是指估计和理解定量的数字,例如在什么地区销售什么样的产品,销售多少。分类提炼 是指将各个地区畅销的产品和产品类别进行提炼,分类整理后进行分析。这两个是为了正确识别当前的情况,但 预测 不是当前的情况,而是通过创建某种模型来预测未来的销量和畅销产品。
另一方面,知识启发式数据挖掘 关联规则制定 是探索性地同时知道买了什么和买了什么。 聚类 是指根据购买趋势等对相似的人进行分组,并尝试对每个组实施最佳措施。由于这两种方法没有目标变量,所以它们对应于多元分析中的汇总方法,但也不是没有目标的。
聚类和分类的区别在于分组依据是基于预定义的属性、购买金额等,还是分组基于事后定义的探索性依据。分位分析、RFM 分析等是对客户进行分组的类似方法,但基于预定义的标准,例如购买数量和频率。在聚类分析中,由于某种原因,分组是任意的,并且在事后进行分析以了解组的特征,因此方法完全不同。
文本挖掘 是一种具有代表性的 了解群体特征 的数据挖掘方法,用于假设检验和知识发现。文本挖掘可用于定性和定量地了解有目的所说的内容,或探索性地发现所说的内容。
这样就有了两种类型的数据挖掘:假设检验(面向目标)数据挖掘和知识发现(探索)数据挖掘。
数据挖掘解决的问题

想用数据挖掘做什么的时候,有人说他们想做RFM分析或集群客户,但这不是最终目标,只是解决营销问题的一种手段,那么企业面临哪些营销挑战?
将问题费结成产品和客户。
想了解的产品
问题
方法
在哪里销售多少产品?
估计,理解
您应该如何对您的产品进行分类?
分类、提取
未来我们应该重点关注哪些重点产品?
分类、提取
这个产品未来能卖多少钱?
未来预测
哪些产品与哪些产品一起购买?
制定关联规则
新产品是如何收到的?
了解群体的特征

想了解您的客户
问题
方法
该客户购买什么样的产品?
估计,理解
谁是好客户,谁濒临倒戈?
分类、提取
未来哪些客户会购买该产品?
未来预测
应该为哪个客户群推荐哪种产品?
聚类
按性别、年龄和地区划分,客户是什么样的人?
猜测群体的特征

可以看到每个挑战都适合两种数据挖掘分类法之一。解决这些营销问题是数据挖掘的最终目的。在数据挖掘中,有适合解决每个问题的方法。
通过营销的4P元素(Porduct,Price,Promotion,Place)与营销的基本策略STP(Segmentation, Targeting, Positioning)相关联,这也是数据挖掘的本质。
数据挖掘和数据科学

数据挖掘 是在大型数据集中发现模式的过程,涉及机器学习、统计学和数据库系统交叉的方法。数据挖掘是计算机科学和统计学的一个跨学科子领域,其总体目标是提取信息(使用智能方法)从数据集中将信息转换为可理解的结构以供进一步使用。
数据科学 是一个跨学科领域,使用科学的方法、过程、算法和系统从许多结构化和非结构化数据中提取知识和见解。数据科学与数据挖掘、深度学习和大数据有关。



[attach]791075[/attach]




[attach]791076[/attach]



数据挖掘的过程

数据挖掘处理的数据

数据挖掘的一个特点是处理的数据量大于统计分析处理的数据量,但与统计分析处理的数据还有其他决定性的差异。统计分析所用的数据,不仅干净,浪费少,而且和一个经过合理规划、树木密布、果实几乎可以肯定成熟的果园一样。
比如在调查数据中,数百个问题的答案数据几乎全部被量表分成5级评分并进行是否的1/0数据填充,NULL(无值)的数据。



[attach]791077[/attach]

数据挖掘处理的数据是数以万计的产品中购买了几种产品的数百万客户的数据毫不夸张地说大部分数据为NULL。

[attach]791078[/attach]

当数据多数被NULL充满变得稀疏时,称为稀疏数据,构建数据矩阵被称为稀疏矩阵。在数据挖掘中,数据的这种稀疏性是一个大问题。有必要从产品分析和客户分析两方面来解决稀疏问题。
在产品分析中,按SKU(Stock Keeping Unit)分析数以万计的产品,无非是造成数据稀疏的因素。为此品类分析在CTB(Customer to Business)分析中显得尤为重要。另外评价客户相似度时的相似度定义可能无法通过传统的聚类分析处理,因此需要对其进行设计。
数据挖掘和大数据

大数据这个词像流行语一样泛滥。那么大数据和数据挖掘有什么关系呢?在此之前,我想回顾一下什么是大数据。大数据商业被定义为利用大数据解决社会和经济问题的商业并提高或支持业务的附加值。
当数据具备 3V 和 4V 有时被视为大数据的特征。
数据挖掘常用方法

提取数据

数据清洗 是指从获取的数据中去除垃圾数据(噪声)并提取要分析的数据。

[attach]791079[/attach]



特定产品的抽取 从产品中抽取某特定需求的产品或可能销售的产品。

[attach]791080[/attach]



特定客户的抽取 从客户中抽取购买了特定产品的客户、优秀客户等。



[attach]791081[/attach]



数据排序

产品排序 按销售顺序对产品进行排序(排名),按销售可能性对产品进行排序(预测)。



[attach]791082[/attach]

客户排序 按购买次数最多的顺序对客户进行排序,按最近购买的顺序对客户进行排序。

[attach]791083[/attach]

客户分组 按属性区分客户。

[attach]791084[/attach]



数据分组

产品分组 将产品分组。

[attach]791085[/attach]



客户分组 按属性区分客户。

[attach]791086[/attach]



数据性质拆解

了解分组 产品的特点计算每个产品类别的月销量和平均单价等组代表值。



[attach]791087[/attach]

了解分组客户的特征 了解按性别和年龄划分的消费金额(交叉表)。

[attach]791088[/attach]



数据间关系

了解产品 A 的总销量与温度之间的关系 ⇒ 预测在任何给定温度下它的销量。



[attach]791089[/attach]

了解分组客户购买的产品。

[attach]791090[/attach]



从基础数据处理看数据分析的本质

作为问卷数据基础的交叉制表,是一种将客户按属性或某种特征分组,并检查每个组数据的属性的制表方法。CRM 中经常出现的 RFM分析,是一种将客户按照频繁购买、频繁购买、大额购买的顺序进行排序、组合、分组的分析。分析的变种有很多。
按区域和店铺类型进行需求预测可以说是通过按区域和店铺对销售额进行分组,并了解销售数据、时间数据和各种解释变量数据之间的关系进行预测的模型。各种回归分析、决策树、神经网络等都用于找出关系。
了解这些分析方法非常重要,但数据挖掘解决的挑战对于解决中提到的各种营销问题的数据挖掘的类型,应该使用什么样的统计方法,才能知道应该结合哪些基础处理,应该使用什么样的提取、排序、关系。一点也不为过要说能够基于这种理解制定分析策略是非常重要的,这就是数据分析的本质。



[attach]791091[/attach]



数据管理和数据结构

每天更新的销售数据和产品数据等数据库无法按原样进行分析,因此将过去到现在的综合数据收集并存储在数据仓库(巨大的数据仓库)中。此外根据分析的目的,例如通过利用数据集市来执行数据挖掘,该数据集市在特定时间段内提取特定区域的数据。



[attach]791092[/attach]
作者: lovage殁    时间: 2022-10-17 07:00
元芳你怎么看?
作者: 凡间真理    时间: 2022-10-19 17:30
只看文字不过瘾啊~




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4