找回密码
 立即注册
搜索

想要以数据发掘为专业,那么必须得知道什么是关联分析

很多人常常在相关分析和关联分析之间犯迷糊,实践上两者之间的差别很分明,相关分析是分析数据列之间同增同减的关系,而关联分析反映的是一个数据行外部的各个元素之间同时出现或者“你在、我就在”的关系。要讲关联分析,就不得不提到数据分析中“因果关系”的弱化这一趋向。

因果关系的弱化

在数据分析范畴,我们都自觉不自觉地在追求和发掘数据之间的“因果关系”,销售投入的增长能否会惹起销售回款的增长,人口的流入能否一定会带来房价的下跌。随着数据分析技术的不断改进以及分析阅历的不断积累,人们末尾看法到,事物之间未必完全是“有因必有果、有果必有因”的关系,很多事情之间呈现一种比较松懈的、逻辑性并非很强的“关联”关系,这种关联关系在数据发掘而非传统统计的案例中常常出现。

要分析数据之间的“关联”关系,我们要运用apriori算法,目前各种主流的数据分析和发掘软件,都采用了这个算法。

关联分析的目的

在数据中间发掘“同时存在”或者“你在、我就在”的技术,就是关联分析。下面看几个重要的关联分析算法的基本概念。

支持度

支持度就是数据中的相应的元素同时出现的概率,置信度就是统计中的条件概率,不过条件概率到了关联分析中有了“前项”和“后项”这两个概念,例如A出现当前B出现的概率,称A为前项,B为后项,那么A到B的置信度就是:







反过来,B到A的置信度为:

提升度

提升度的定义,以X表示前项,Y表示后项,X到Y的提升度就是:




仅计算支持度和置信度是不够的,还要看支持度目的,其规则如下:




什么样的数据合适做关联分析

商超数据

商场和超市数据是关联分析最先被运用的地方,自然也是关联规则运用的次要场所。商超数据做关联分析的次要目的就是用来做捆绑销售,这种捆绑销售次要体如今两个方面:

❑ 实体店中的捆绑:将相应产品的货架摆放在一同或者放在比较相近的地位。

❑ 网店中的搭售:根据客户消费中的关联性,停止相关礼包的组合或者销售的引荐。

金融数据

金融范畴也是关联分析运用的重要场合,两个比较典型的运用是金融欺诈和关键目的分析

在金融数据的关联分析中,有两种关联关系:一是同步的数据关联,二是有一定工夫差距的关联,例如某个股票的目的出现某种特征时,两个买卖日后股票涨停板,那么,这两种关联关系我们都需求思索。

消费质量数据

消费质量数据也是关联分析运用的重要场所,其实做法跟金融行业非常相似,我们次要关注产品次品率,也是异样将产品次品率高的批次标识出来,与相应的消费数据停止关联分析,包括产品批次、供货批次、班次、工人徒弟等级、车间、电压等数据。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

82506102 2019-12-3 11:26:26 显示全部楼层
我有个小建议,楼主把内容写详细点吧才会吸引更多读者呀。
回复

使用道具 举报

无聊来看看啊 2019-12-4 12:32:12 来自手机 显示全部楼层
加油!不要理那些键盘侠!
回复

使用道具 举报

补天者 2019-12-5 11:01:08 显示全部楼层
看起来好像不错的样子
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies