找回密码
 立即注册
搜索

秒懂数据发掘,玩转数据分析的高级运用不在话下

xiaovq 2020-6-24 08:41:46 显示全部楼层 阅读模式
随着时代的发展,人类产生的数据成倍增长,数据的开放性运用和数据可发掘价值越来越高。在大数据精准营销、大数据洞察等一系列热词背后,正是数据发掘、分析技术发挥着重要的作用。数据发掘技术不只成为当今政务部门提升管理才能的重要手腕,也成为各行各业提升核心竞争力的关键。



什么是数据发掘


数据发掘是从大量的不完全的有噪声的模糊的随机的数据中,提取隐含在其中的、人们事前不知道的、但有潜在的有用信息和知识的过程。







可以看出,数据发掘是一个过程结果的称谓,即次要目的是从数据中挖取隐藏的信息。它是一个交叉迷信范畴,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息迷信。
数据发掘与商业智能的关系

举个简单点的例子:
    经过统计购买某产品的人大多数来自北京,则北京是该产品的次要消费者寓居的城市,这就是用的商业智能技术。要从100000人中找出100个购买某产品概率比较大的客户,则可以经过应用统计方法建立数学模型找到这群人,而这就要用数据发掘技术。




也就是说:
    商业智能就是目的明白的创建统计分析报表,根据统计结果,提供商业决策支持,输入的是数据,输入的是信息数据发掘则是透过数据的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似有关事物之间背后的联络,用此来洞察或预测未知事项,输入的是数据,输入的是知识

应用数据发掘技术,对大量的业务数停止探求和分析揭示隐藏的、未知的规律,是商业智能的高级运用。
数据发掘能处理哪些成绩

根据数据发掘的运用方向,常见的数据发掘能处理的成绩体如今下面几个方面。

1. 分类与回归

分类根据样本数据中标记的类别对原数据停止分类总结,进而也可以预测将来数据的归类。

回归是确定一种或多种变量间互相依赖关系的一种统计分析方法。

分类与回归本质上处理的都是预测成绩,不同的是分类适用于团圆型目的变量的预测,而回归适用于延续型目的变量的预测。下面这些成绩可以用分类和回归技术来处理:
    如何将信誉卡央求人分为低、中、高风险群?如何预测银行可以安全地贷给贷款人的贷款量?如何有效预测房地产开发中存在的风险?如何预测哪些顾客在将来半年内会取消该公司服务,哪些电话用户会央求增值服务?如何预测具有某些特征的顾客能否会购买一台新的计算机?运用3G通讯网络的手机用户哪些有能够转换到 4G通讯网络?如何预测一位顾客在一次销售时期将花多少钱?如何预测病人该当接受三种详细治疗方案的哪一种?

下图是一个基于决策树预测银行客户能否存在贷款风险的示例:




2. 聚类

聚类是在预先不知道欲划分类的状况下,根据数据相似度准绳停止数据归类的方法。

中国有句古话是“物以类聚,人以群分”,其实曾经包含了聚类算法的基本思想。聚类能处理如下方面的成绩:
    谁是银行信誉卡的黄金客户?谁喜欢打国际长途,在什么工夫,打到那里?如何对用户 WAP 上网行为停止分析,经过客户分群,停止准确营销?对住宅区停止聚类,确定自动提款机 ATM 的安放地位。如何经过一些特定的症状归纳某类特定的疾病?

例如下图,找到共性的数据,然后聚类显示:




3. 关联规则

关联规则在一个数据集中找出各个物品或者商品之间的关系,也被称为购物篮分析。

关联规则描画的是在一个事物中物品间同时出现的规律的知识形式,可以运用到很多实践业务中:
    哪些商品是曾经购买商品 A 的人最有能够购买的?商业销售上,如何经过交叉销售,以得到更大的支出?保险方面,如何分析索赔要求,发现潜在的欺诈行为?银行方面,如何分析顾客消费行业,以便有针对性的向其引荐感兴味的服务?哪些制造零件和设备设置与缺点事情关联?哪些病人和药物属性与结果关联?

下图是某商场购物蓝引荐结果示例:




4. 工夫序列预测

经过已有的工夫序列数据停止类推,以预测下一段工夫的趋向。

工夫序列预测是在与工夫相关的历史数据中,找到数据随工夫变动的规律。你可以用来处理如下成绩:
    下个月的商品销量、销售额或库存量是多少?明天广州市的最高用电负荷是多少?

下图是某公司红酒销量的预测图:




5. 关系网络分析

关系网络分析用来探求社会举动者及其间的关系,例如:社会关系、亲属关系、角色关系、行为关系、活动关系、地理空间关系等等。

关系网络分析也叫社会网络分析。经过社会网络分析,可以探求和发现举动者之间隐藏的关系。常见的关系有:
    亲属关系:父母、子女、夫妻关系等。正式关系(威望关系):正式角色也是关系性的,如老板/职员、教师/先生、医生/病人关系等。个人之间的评价关系:喜欢、信任、尊重等。行为上的互动关系:举动者之间的自然交往,如说话、参加会议、拜访、提建议等。从属关系:如参加一项协会、属于某些俱乐部等。物质资本的传递:商业往来、物资交流。非物质资源的转换关系:举动者之间的交往、信息的交换等。空间关联:城市之间的关系,迁入和迁出。职位的升迁,地位的活动。

下面是对《凄惨世界》一书中人物的关系网络分析的一个示例:







数据发掘是一个循环往复的过程,在生成规则的过程中不断地对模型停止调整,从而提升精度。那么,怎样才能更好地掌握数据发掘呢,亿信华辰数据发掘软件豌豆DM是一个不错的选择。

豌豆DM内置分类分析、回归分析、聚类分析、关联规则分析以及工夫序列运用等五大类十几个小类的数据发掘算法,并支持R言语算法扩展。让用户可以经过半自动化或者自动化地分析业务数据,做出归纳性的推理,从中发掘出潜在的形式,协助你处理客户流失分析、客户细分、银行客户贷款风险分析、客户信誉评价、关联引荐(购物篮分析)等各类数据分析运用成绩。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

翼淇 2020-6-24 13:53:24 显示全部楼层
呵呵,低调,低调!
回复

使用道具 举报

a8159787 2020-6-25 19:54:57 显示全部楼层
专业抢沙发的!哈哈
回复

使用道具 举报

不错不错,楼主快出来写点实战经验哇~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies