入行数据分析要知道何为数据挖掘及入门应用方法

谢火箭 · 2022-10-16 21:55:22

数据挖掘更像是从荒凉的草原上收获美味的果实，而不是在广阔的矿山中寻找金矿。不知道有没有金脉，但草原上肯定有果实。然而在实际数据中，有很多神秘数据无法使用，也有很多数据不清楚这棵树是否真的结出可食用的果实。首先我们要清理草原，但是清理这片辽阔的草原需要很多时间。实际收获果实通常需要 80% 的时间。
即使数据最终变得干净也必须想出各种想法，才能收获高效和有价值的规则的果实。

什么是数据挖掘

数据挖掘是一种技术，例如可以基于对每个客户的深刻理解，在公司与客户之间形成长期良好关系的方法和策略。更具体地说可以说是分析公司收集的大量数据，发现有用的模式和规则，并支持营销活动的统计方法和工具的集合。
其中最经典的案例是啤酒与尿布的故事，通过关联规则销售。大多数人会认为这只是一个轶事，没有确凿的证据表明将两者放在同一楼层实际上会增加销售额。甚至有人会认为消费周期决定的，或者是一个偶然现象。
数据挖掘的2种方法

比较数据挖掘和统计分析的区别，数据挖掘是知识发现，统计分析是假设检验，但真的是这样吗？
统计分析处理的数据量比较少，数据挖掘可能更多。数据挖掘也有知识发现的成分，但不是通过输入数据就能自动发现的。应该认识到数据挖掘有两种类型：不仅是知识发现，还有假设检验，就像统计分析一样。

假设检验（面向目标） 数据挖掘有一个客观变量来预测购买量和客户反应，并据此对客户进行分类。回归分析、决策树和神经网络等许多技术都用于有目的地构建模型。
知识发现（探索性） 数据挖掘没有目标变量，试图从获得的数据中寻找有用的规则、模式、相似性等，作为一种典型的方法用于购物篮分析，属于关联分析。

在假设检验数据挖掘中，估计和理解 是指估计和理解定量的数字，例如在什么地区销售什么样的产品，销售多少。分类提炼 是指将各个地区畅销的产品和产品类别进行提炼，分类整理后进行分析。这两个是为了正确识别当前的情况，但预测不是当前的情况，而是通过创建某种模型来预测未来的销量和畅销产品。
另一方面，知识启发式数据挖掘 关联规则制定 是探索性地同时知道买了什么和买了什么。聚类是指根据购买趋势等对相似的人进行分组，并尝试对每个组实施最佳措施。由于这两种方法没有目标变量，所以它们对应于多元分析中的汇总方法，但也不是没有目标的。
聚类和分类的区别在于分组依据是基于预定义的属性、购买金额等，还是分组基于事后定义的探索性依据。分位分析、RFM 分析等是对客户进行分组的类似方法，但基于预定义的标准，例如购买数量和频率。在聚类分析中，由于某种原因，分组是任意的，并且在事后进行分析以了解组的特征，因此方法完全不同。
文本挖掘 是一种具有代表性的 了解群体特征 的数据挖掘方法，用于假设检验和知识发现。文本挖掘可用于定性和定量地了解有目的所说的内容，或探索性地发现所说的内容。
这样就有了两种类型的数据挖掘：假设检验（面向目标）数据挖掘和知识发现（探索）数据挖掘。
数据挖掘解决的问题

想用数据挖掘做什么的时候，有人说他们想做RFM分析或集群客户，但这不是最终目标，只是解决营销问题的一种手段，那么企业面临哪些营销挑战？
将问题费结成产品和客户。
想了解的产品

问题	方法
在哪里销售多少产品？	估计，理解
您应该如何对您的产品进行分类？	分类、提取
未来我们应该重点关注哪些重点产品？	分类、提取
这个产品未来能卖多少钱？	未来预测
哪些产品与哪些产品一起购买？	制定关联规则
新产品是如何收到的？	了解群体的特征

想了解您的客户

问题	方法
该客户购买什么样的产品？	估计，理解
谁是好客户，谁濒临倒戈？	分类、提取
未来哪些客户会购买该产品？	未来预测
应该为哪个客户群推荐哪种产品？	聚类
按性别、年龄和地区划分，客户是什么样的人？	猜测群体的特征

可以看到每个挑战都适合两种数据挖掘分类法之一。解决这些营销问题是数据挖掘的最终目的。在数据挖掘中，有适合解决每个问题的方法。
通过营销的4P元素（Porduct，Price，Promotion，Place）与营销的基本策略STP（Segmentation, Targeting, Positioning）相关联，这也是数据挖掘的本质。
数据挖掘和数据科学

数据挖掘 是在大型数据集中发现模式的过程，涉及机器学习、统计学和数据库系统交叉的方法。数据挖掘是计算机科学和统计学的一个跨学科子领域，其总体目标是提取信息（使用智能方法）从数据集中将信息转换为可理解的结构以供进一步使用。
数据科学 是一个跨学科领域，使用科学的方法、过程、算法和系统从许多结构化和非结构化数据中提取知识和见解。数据科学与数据挖掘、深度学习和大数据有关。

数据科学和数据挖掘之间最大的区别可能在于它们的术语。数据科学是一个广泛的领域，包括捕获数据、分析数据并从中获得洞察力的过程。另一方面，数据挖掘主要是在数据集中找到有用的信息，并利用这些信息来发现隐藏的模式。
数据科学和数据挖掘之间的另一个主要区别是前者是一个多学科领域，包括统计学、社会科学、数据可视化、自然语言处理、数据挖掘等，而后者是前者的一个子集。
数据科学专业人员的角色在某种程度上可以被认为是人工智能研究员、深度学习工程师、机器学习工程师或数据分析师的组合。该人也可能能够担任数据工程师的角色。相反，数据挖掘专业人员不一定必须能够胜任所有这些角色。
数据科学和数据挖掘之间的另一个显着区别在于这些专业人员使用的数据类型。通常，数据科学处理各种类型的数据，无论是结构化的、半结构化的还是非结构化的。另一方面，数据挖掘主要处理结构化数据。
如果考虑该领域的工作性质，在数据科学中不仅要发现模式并分析它们，它们是数据挖掘的关键组成部分，相反在数据科学工具和技术的帮助下，应该能够通过利用现在和历史数据。

数据挖掘的过程

目的明确： 在数据挖掘中，虽然没有目的，但你不太可能会尝试通过将暂时存在的数据投入其中来获得一些知识。知识发现（探索）数据挖掘并非没有目的。首先，了解要解决的问题，明确目的。
分析策略的确定： 为了达到这个目标首先要仔细查看数据，了解其内容，然后制定政策，使用哪些数据，使用哪些分析方法和工具。此外，一次尝试无法找到最优的分析策略，如果分析结果不理想，则可能会修改策略并重复多次循环。
数据清洗、数据处理/整形： 正如开头所说，最好认为收集到的数据总是夹杂着不必要的数据。数据重复和丢失数据，不应该处理的数据污染，异常值和异常值，这些垃圾数据必须被提取和排除。还要了解它是什么数据，把数据标准化，格式化成分析软件可以处理的形式。
基本聚合： 在进行认真的分析之前，需要对数据进行鸟瞰。有必要通过计算基本统计量和进行交叉制表来减少构成要解决问题的基础的数值。为了进行分析，了解要分析的问题很重要，基本聚合可以更准确地了解当前情况。
多元分析： 根据分析策略的结果，选择回归分析、聚类分析、关联分析等方法。即使在同一个回归分析中，也需要选择是简单回归分析、多元回归分析还是量化类型。在聚类分析的情况下，使用哪种距离定义，在关联分析中，使用哪种关联分析你必须决定是否使用逻辑。最重要的是，提取、分类和发现有用的知识。
模型创建： 根据多变量分析的结果，概括规则并创建模型，当获取新数据时，该模型可以用某种算法解决问题。该模型的适用性通过将其应用于实际数据来验证。如果不合适或预测准确率低，可能需要调整模型或审查模型本身，这就是为什么说数据挖掘是一个不断试错的过程。

数据挖掘处理的数据

数据挖掘的一个特点是处理的数据量大于统计分析处理的数据量，但与统计分析处理的数据还有其他决定性的差异。统计分析所用的数据，不仅干净，浪费少，而且和一个经过合理规划、树木密布、果实几乎可以肯定成熟的果园一样。
比如在调查数据中，数百个问题的答案数据几乎全部被量表分成5级评分并进行是否的1/0数据填充，NULL（无值）的数据。

数据挖掘处理的数据是数以万计的产品中购买了几种产品的数百万客户的数据毫不夸张地说大部分数据为NULL。

当数据多数被NULL充满变得稀疏时，称为稀疏数据，构建数据矩阵被称为稀疏矩阵。在数据挖掘中，数据的这种稀疏性是一个大问题。有必要从产品分析和客户分析两方面来解决稀疏问题。
在产品分析中，按SKU（Stock Keeping Unit）分析数以万计的产品，无非是造成数据稀疏的因素。为此品类分析在CTB（Customer to Business）分析中显得尤为重要。另外评价客户相似度时的相似度定义可能无法通过传统的聚类分析处理，因此需要对其进行设计。
数据挖掘和大数据

大数据这个词像流行语一样泛滥。那么大数据和数据挖掘有什么关系呢？在此之前，我想回顾一下什么是大数据。大数据商业被定义为利用大数据解决社会和经济问题的商业并提高或支持业务的附加值。
当数据具备 3V 和 4V 有时被视为大数据的特征。

体积（Volume）： 指在大数据方面可以达到千亿的数据量或数据大小。大数据的第一个特点就是容量大。不仅限于企业，由于信息技术的演进，即使是无声的，也会收集到越来越多的数据，数据量将达到TB到PB的量级。
多样性（Variety）： 指不同类型的数据，如社交媒体、网络服务器日志等。大数据并不总是像通常在电子表格中处理的那样量化和关联数据（结构化数据）。还有各种非结构化数据（非结构化数据），例如文本、语音、图像和视频，并且通过文本挖掘、语音和图像分析将这些数据结构化，并将其用于业务的运动越来越多。
速度（Velocity）： 指的是数据增长的速度，数据呈指数增长并且速度非常快。在当今瞬息万变的社会中，有必要对这些数据进行实时处理和响应。
真实性（Veracity）： 指的是像社交媒体这样的数据的不确定性，意味着数据是否可信。主流的方法是通过抽样从一些数据中推断出整体。另一方面，大数据并非不可能获得所有数据，因此它是准确的，消除了因猜测而产生的歧义和不准确，使得基于真正可靠的数据做出决策成为可能。
价值（Value）： 指的是我们存储和处理的数据是有价值的，以及我们如何从这些海量数据中受益。大数据的本质价值在于对获得的数据进行分析，得出有用的知识和智慧，建立和验证模型、解决问题。

数据挖掘常用方法

提取数据

数据清洗 是指从获取的数据中去除垃圾数据（噪声）并提取要分析的数据。

特定产品的抽取 从产品中抽取某特定需求的产品或可能销售的产品。

特定客户的抽取 从客户中抽取购买了特定产品的客户、优秀客户等。

数据排序

产品排序 按销售顺序对产品进行排序（排名），按销售可能性对产品进行排序（预测）。

客户排序 按购买次数最多的顺序对客户进行排序，按最近购买的顺序对客户进行排序。

客户分组 按属性区分客户。

数据分组

产品分组 将产品分组。

客户分组 按属性区分客户。

数据性质拆解

了解分组 产品的特点计算每个产品类别的月销量和平均单价等组代表值。

了解分组客户的特征 了解按性别和年龄划分的消费金额（交叉表）。

数据间关系

了解产品 A 的总销量与温度之间的关系 ⇒ 预测在任何给定温度下它的销量。

了解分组客户购买的产品。

从基础数据处理看数据分析的本质

作为问卷数据基础的交叉制表，是一种将客户按属性或某种特征分组，并检查每个组数据的属性的制表方法。CRM 中经常出现的 RFM分析，是一种将客户按照频繁购买、频繁购买、大额购买的顺序进行排序、组合、分组的分析。分析的变种有很多。
按区域和店铺类型进行需求预测可以说是通过按区域和店铺对销售额进行分组，并了解销售数据、时间数据和各种解释变量数据之间的关系进行预测的模型。各种回归分析、决策树、神经网络等都用于找出关系。
了解这些分析方法非常重要，但数据挖掘解决的挑战对于解决中提到的各种营销问题的数据挖掘的类型，应该使用什么样的统计方法，才能知道应该结合哪些基础处理，应该使用什么样的提取、排序、关系。一点也不为过要说能够基于这种理解制定分析策略是非常重要的，这就是数据分析的本质。

数据管理和数据结构

每天更新的销售数据和产品数据等数据库无法按原样进行分析，因此将过去到现在的综合数据收集并存储在数据仓库（巨大的数据仓库）中。此外根据分析的目的，例如通过利用数据集市来执行数据挖掘，该数据集市在特定时间段内提取特定区域的数据。

lovage殁 · 2022-10-17 07:00:48

元芳你怎么看？

凡间真理 · 2022-10-19 17:30:15

只看文字不过瘾啊~

		自动登录	找回密码
密码			立即注册

入行数据分析要知道何为数据挖掘及入门应用方法

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们