请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

数据挖掘与分析理论

hjkoye 2022-12-27 13:45:15 显示全部楼层 阅读模式
1.什么是数据挖掘?
数据挖掘(DataMining)起源于 1989 年 8 月,美国底特律举办的第 11 届国际联合人工 智能学术会议中 Piatetsky·Sharpiro 提出的 KDD(Knowledge Discovery and DataMining)。

它的含义就是从海量的数据中抽取出有意义的、重要的、潜在有用的信息和知识的过程。从技术上来说,数据挖掘是一门交叉学科,融合了统计学、人工智能、模式识别、机器学习等内容。

数据挖掘的工作过程可以包括数据的抽取、存储管理、挖掘和展现等几个部分。所谓抽取就是将数据从外部数据源或者其他联机事务处理系统中导入到数据仓库或者其他数据库中。存储管理主要针对如何管理海量的数据、优化查询效率和处理各种并发数据等。挖掘就是利用各种的挖掘算法得到相应知识的过程。最后数据展现就是实现各种预定义查询、动态报表查询等内容,展示的方式包括直方图、动态模拟和饼图等形式。更简单地说,数据挖掘就是将对数据的简单查询提升到挖掘信息和知识的过程。

2.数据挖掘方法的几个步骤:

数据挖掘是一个闭环的、反复循环的过程。需要业务分析人员和 IT 工程师共同完成。一般来说它有以下几个步骤:


  • 定义业务范围。在这个阶段需要明确对数据挖掘的目标和定位,制定数据挖掘的计划。
  • 选择合适的数据,定义相关的训练数据集和验证数据集等内容。
  • 对数据进行探索分析,使数据集尽可能满足建模算法的要求。
  • 分析并且确定数据挖掘模型。建模人员需要不断地测试模型性能,从而选择出最佳的数据模型。
  • 模型实施和评价。通过模型的结果帮助相关人员做出战略决策。同时搜集结果反馈,判断是否需要改进模型。
3.数据挖掘常用算法
常用的数据挖掘算法主要包括分类、聚类关联规则三种。
分类主要是对目标数据进行分类。可以通过训练集建立模型,通过测试集去验证模型的效果,最后再通过该模型对目标数据进行分类。其中常用的分类算法是决策树。
聚类主要是将相似的事物分成一类,将差异较大的事物分布在不同的类中,即“物以类聚”,保证各个组间的特征差异性最大。例如聚类分析可以发现特征差异很大的客户群。
聚类和分类的区别是:聚类不依赖确定好的组别,也没有样本数据,数据是按照自身特征的相似性聚集在不同的类别中,在数据挖掘中,常用的聚类算法是 K 均值算法;关联规则主要是确定哪些事物可以在一起出现,例如设计各种商品和服务的组合。
4.数据仓库和数据挖掘的关系
我们可以引用商业智能的概念,决策人员以企业级数据仓库为基础,由联机分析处理工具、数据挖掘工具加上决策人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润,而数据挖掘就是建立在数据仓库基础上的增值技术。

数据仓库是为了支持企业决策分析的数据集合。它是面向主题的、集成的、稳定的,并且随着时间发生变化。它的关键技术包括数据的抽取、 清洗、转换、加载和维护技术。

数据挖掘是从海量的数据中,抽取出有意义的、潜在有用的信息和知识的过程。数据挖掘的数据来源可以是数据仓库或者是其他数据库。对于挖掘的数据需要进行选择,挖掘的结果也需要进行评估,按照评估结果的不同,一般需要重新分析和计算。

数据挖掘可以对数据仓库中的历史数据进行提炼和挖掘,使得这些数据成为信息和知识。可以借助对历史数据的分析,发现数据内部有价值的规律。

数据仓库是数据挖掘的基础。因为数据仓库的数据是完整的、集成的,它为数据挖掘提供了扎实的数据基础。数据仓库可以为数据挖掘提供需要的历史数据和全面的数据处理、分析等基础设施。

5.数据挖掘的主要过程

数据挖掘的过程主要包括:定义商业问题、建立数据挖掘库、确定分析的内容、准备数据、建立模型、评价模型和实施。

5.1 定义各种商业问题

对业务问题和数据挖掘的目标进行明确的定义,例如从整体上分析市场的结构和发展的趋势,或者从微观的角度分析客源的结构。

5.2 建立数据挖掘库

主要过程包括:对数据的搜集,确定需要挖掘的数据源。选择用于挖掘的数据,对数据的质量进行评估,确定数据的哪些属性会影响模型的质量,判断是 否建立数据仓库。

5.3 确定分析的内容

以旅游行业为例,分析的内容可以包括:线路分析、出行时间、人数分析、旅游目的分析和客户关联分析等。举例来说,根据分析可以确定旅游业的旺季 集中在哪几个月份,哪些群体更喜欢外出旅游等。

5.4 准备数据

准备数据的主要过程包括:选择最优的预测变量,如果数据量较大,可以进行数据抽样,也可以在原始数据中衍生新的变量作为预测变量。
5.5 建立模型
建立对商业问题最有用的模型,然后不断地优化,它是一个反复的闭环过程。同时还要决定预测的类型,例如是分类还是回归。
5.6 评估模型
当模型建立之后,应该评估结果和价值。随着应用数据的变化,模型的准确率也会随之发生变化。因为各种隐含的因素,可能会导致经过模拟计算出来的高准确率模型,不一定是正确的模型。
5.7 实施
当模型建立并且经过验证之后,提供给分析人员作为参考。
6. 数据挖掘的主要应用——客户精准营销
6.1 客户精准营销背景
随着技术的发展和市场竞争的激烈,传统的营销系统很难应对复杂的市场环境,大众化的营销方式已经逐渐失去了优势,只有基于客户基本信息和行为,采用客户精准营销的方式才能提高营销的效益,同时大大降低营销的成本。那么什么是客户精准营销呢?
客户精准营销就是通过挖掘技术手段,实现企业和客户之间的个性化沟通服务体系。精准营销包括客户的需求分析、市场细分等内容。因为市场需求的多样化,要求企业能够为客户提供多样化的产品和服务,可以快速捕捉到市场的需求和未来发展预测的能力。
下面分别以旅游行业和银行为例,介绍客户精准营销的应用方式。
6.2 关于旅游行业的客户精准营销
旅游行业的客户精准营销,可以通过客户细分、客户流失分析、交叉销售和客户价值评估等模型来实现。

客户细分的目的是为了实现客户的差异化服务。客户流失分析是为了挽留客户,并提高客户的忠诚度。交叉销售是为了提升交叉销售率。客户价值评估是综合衡量客户在当前贡献度、未来贡献度、信用度、忠诚度和未来成长潜力等几个方面的表现。

(1)客户细分

客户细分可以实现客户的差异化服务,使产品和服务更直接地针对合适的客户群。客户细分可以使用挖掘的分类和聚类算法实现。
客户细分的流程
客户行为细分模型可以通过选择变量,分析影响客户分组的主要因子,根据聚类形成相似的群体,保证组中特征差别明显,最后提出针对性的业务推广与建议。
1)选择变量,分析影响客户分组的主要因子。

数据挖掘与分析理论-1.jpg

2)保证组中特征差别明显。
3)提出针对性的业务推广与建议。
业务推广建议

a)特征组 2:统计分析发现该比例人数较多,且大部分都是 25 岁~35 岁之间的,人群多是商务人士,喜欢购物。

b)特征组 1:统计分析发现该比例人群大多都是中年人士,以家庭为单位的旅游居多,大多喜欢景点游,较少喜欢购物游,消费趋于理性。

c)特征组 3:统计分析发现该比例人群多数都是 20~24 岁之间的学生群体,购物欲望较小,喜欢景点游和过夜。

客户服务建议:


数据挖掘与分析理论-2.jpg

a)对于特征组 2,应该增加购物游的宣传,例如香港购物三日游。时间宜选择在假期。

b)对于特征组 1,可以增加适合家庭游的景点、游乐园的宣传,例如香港迪斯尼三日游, 时间宜选择公共假期。

c)对于特征组 3,可以增加类似于运动、长途类型的旅游,例如西藏七日游。

客户细分的优势:

a)确定每个客户群的特征,指导差异化的客户服务。

b)可以协助企业推出新产品。

c)为新产品寻找目标群体。

d)理解客户对产品的喜好,按需求提供产品。

e)针对客户群制定推广策略。

(2)客户流失分析

举例来说,满足该规则,如果旅游者的年出游次数突然减少,并且对购物、住宿等评价很低,可能是高危用户。如果旅游者的出游次数没有减少,但是对购物、住宿评价变低,客户可能会流失。

(3)交叉销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,通过研究客户对产品的使用习惯和消费行为特点去发现老客户的潜在需求。同时交叉销售可以通过产品之间的关联,寻找捆绑销售的机会,为新产品寻找已有用户中的目标群体。交叉销售的目的是向新老客户推销尚未使用的产品,同时将老产品销售给新客户。
(4)客户价值评估
客户价值评估模型的搭建,主要衡量客户五个方面的表现,包括:客户的当前贡献度、未来贡献度、信用度、忠诚度和成长潜力等。
6.3 关于银行业的客户精准营销
举例来说,当一名客户在银行中存入一笔存款后,他可能会考虑如何使这些资金获得更大的收益,如果这时银行销售人员与客户主动联系,并且给予恰当的建议,完成营销任务的概率就会大大增加。也就是通过评估分析、发现和识别客户的需求,制定相应的营销策略。
对于商业银行来说,通过 CRM 系统中的客户行为信息,识别出客户的交易信息,并发现背后隐藏的客户需求,这种方式不仅可以挽留客户,而且还能提升客户的忠诚度,创造更大的利润。
精准营销方案的设计:
(1)现状调研与分析
主要包括对业务和数据的现状调研,理解营销的活动方式和过程。
(2)对客户交易行为的定义与分析
主要包括数据的准备和模型的建立。
(3)营销活动的设计和评估改进
可以先对部分客户进行尝试性的营销,然后与传统营销方式的结果进行对比,验证推广的可实施性,最后对验证结果进行评估和修正,直至满足目标。
回复

使用道具 举报

大神点评3

a-ka 2022-12-27 19:33:59 显示全部楼层
不错 支持下
回复

使用道具 举报

Qiaoyi13143399 2022-12-28 07:00:56 显示全部楼层
前排支持下
回复

使用道具 举报

@Xizi_ilO0nitY 2022-12-28 12:28:58 显示全部楼层
一直在看
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册