找回密码
 立即注册
搜索

原创干货:数据发掘方法及案例引见(多页PPT)

36大数据专稿,原文作者:小张 本文由小张向36大数据投稿,并授权36大数据独家发布。转载必须获得本站及作者的赞同,回绝任何不标明作者及来源的转载!

1、数据发掘的引入

面对山一样高的,海一样广的数据,我们该怎样办?

数据发掘中的5W成绩

❶为什么要运用数据发掘?

❷数据发掘是什么?

❸谁在运用数据发掘?

❹数据发掘有哪些方法?

❺数据发掘运用在哪些范畴?

百度百科中关于数据发掘的定义如下:

数据发掘(英语:Data mining),又译为材料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据发掘普通是指从大量的数据中经过算法搜索隐藏于其中信息的过程。数据发掘是一门跨多个范畴的交叉学科,通常与人工智能、形式辨认及计算机迷信有关,并经过统计、在线分析处理、情报检索、机器学习、专家系统(依托过去的阅历法则)和形式辨认等诸多方法来完成上述目的。其特点为:海量数据寻知识、集成变换度量值、分析形式评效果、图形界面来展现。

数据发掘次要构建四大类模型:分类、聚类、预测及关联。

分类

聚类

预测

关联

数据发掘是BI范畴的一个重要方向

BI经过对行业的认知、阅历,结合数学实际、管理实际、市场营销实际,应用工具软件、数学算法(如:神经网路、遗传算法、聚类、客户细分等)对企业的数据、业务、市场停止分析及预测,以图表、数据分析报告的方式支撑企业决策、市场营销、业务拓展、信息运营等工作。

数据+人+工具+算法+知识+预测=商业智能(BI)

数据发掘在电信行业的运用:

❶ 如何发现电信客户的特征和分类

❷如何预测哪些即将流失的客户

❸ 如何评价客户的贡献价值

❹如何判别客户的欺诈行为特征

❺如何发掘我的潜在客户

❻如何对欠费/坏账停止预测和控制

❼大客户的消费行为特征是什么,人口统计学特征是什么

❽如何知道公司将来一段工夫支出状况,及某一支出因子对整个支出的影响指数

……还有更多

2、数据发掘建模方法

数据发掘建模建模方法简介

数据发掘过程模型独立于详细的数据发掘模型和系统,从方法论的角度明的确施数据发掘项目的流程和步骤。常用的有CRISP-DM,SEMMA和5A三种过程模型,如下图所示:

其中,SEMMA、5A及CRISP-DM过程模型如下各图示例



数据发掘建模步骤1-商业了解

商业了解:了解商业目的和业务需求,幵转化为数据发掘的成绩定义。

常见的误区:很多人以为不需求事前确定成绩和目的,只需对数据运用数据发掘技术,然后再对分析发掘后的结果停止寻觅和解释,自然会找到一些以前我们不知道的,有用的规律和知识。


数据发掘建模步骤2-数据了解

数据了解:挑选所需数据,校验数据质量,了解数据含义及特性。

数据了解,顾名思义就是基于对业务成绩的梳理分析,找到合适的分析斱法戒者斱法论指点模型目的设计,确保目的体系化、片面性。


数据发掘建模步骤3-数据预备(1)

数据发掘建模步骤3-数据预备(2)

数据探求次要触及两项工作:第一,停止数据检测、分析、验证能否符合目的设计初衷和业务涵义;第二,根据建模需求停止部分数据的标准化处理,使不同的目的在相反的量纲上停止数学运算。


数据发掘建模步骤4-模型建立

根据建模场景停止算法选择:如描画类有分类规则、聚类分析,预测类有、神经网络、决策树、工夫序列、回归分析、关联分析、贝叶斯网络、偏向检测,评价类有因子分析、主成分分析、数学公式;并结合数据状况(如团圆值、延续值,数据量大小)等选择合适的算法 。

数据发掘建模步骤5-模型评价

模型评价目的在于:什么样的模型是有效的?模型的实践运用效果如何?

根据样本数据,模型结果实践效果反馈数据迚行模型评价。

数据发掘建模步骤6-模型发布

聚焦业务成绩提供端到端的专题处理方案;

提高数据发掘运用的效果和价值。

数据发掘建模步骤7-模型优化

3、数据发掘算法引见

1)、聚类分析

2)、分类(决策树)

3)、预测(BP神经网路)

BP神经网络是在古代神经生物学研讨成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,它不但具有处理数值数据的普通计算才能,而且还具有处理知识的思想、学习、记忆才能。

在数据发掘中常常应用神经网络的学习、记忆、模型工能停止一些预测。

基于神经网络的数据发掘过程由数据预备、规则提取和规则运用、预测评价四个阶段组成。其中,规则提取是我们模型预测的核心。

4)、预测(回归)

5)、关联规则

6)、数据处理(主成分/因子分析)

7)、指纹算法

重入网辨认技术-呼叫指纹算法

“呼叫指纹”,用户在运用电信运营商的产品及服务过程中所产生的交际圈、呼叫特征、短信特征、地位特征、客服特征、终端特征等信息。这些特征对每一用户而言,是相对波动的,且存在个体差异。

重入网辨认根据:应用“呼叫指纹”特征,建立新发展用户和老用户核心指纹库,指纹相似度越大,判别为一致用户的的概率越大。




4、数据发掘运用案例

1)、流失预警模型

客户流失预警模型的建设目的是提早预测客户的流失能够性,根据客户特征对客户停止分群、建模,挑选出能够即将要流失的用户,辅助业务部门提高客户维系挽留工作的效率、提高维系成本的运用效率,降低客户流失率。

2)、用户真实性辨认模型

根据用户入网当前的运用行为、运用地位、缴费特征等辨认出虚伪用户、欠真实性用户和真实性用户,从而根据不同的用户群采取不同的维系策略,如虚伪用户的防备措施,欠真实性用户的补救措施 。

3)、客户细分模型

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

zlc940218 2019-10-6 12:44:02 显示全部楼层
大人,此事必有蹊跷!
回复

使用道具 举报

章子仪 2019-10-7 11:14:24 显示全部楼层
我反手就是一个么么哒,不谢
回复

使用道具 举报

chongming 2019-10-8 08:15:44 来自手机 显示全部楼层
秀起来~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies