找回密码
 立即注册
搜索

终于有人把数据挖掘讲明白了, 这2个案例从0到1讲清分析思路!

关于大数据分析的案例,网上诸如啤酒与尿布的例子实在是太多了,但是关于数据挖掘的案例很少会有人关注。这里我分享两个关于数据挖掘的案例,都是我们团队做出的真实案例,希望能够体现出数据挖掘强大效果之一二。
一、数据分析预测电影票房

19年春节档关注的电影一共有《疯狂外星人》、《流浪地球》、《飞驰人生》、《新喜剧之王
》四部,而关于这几部电影的票房,我们的团队在电影上映一周前就做了出了预测:



截止到2月12日早上9点,我们再来看一下首周票房对比结果:



除了《流浪地球》这匹黑马杀出重围之外(挖掘算法也没想到国产科幻电影也有翻身的一天),其他电影的预测结果与实际结果几乎完全吻合!
那么,我们是怎么用数据挖掘预测电影票房的呢?简而言之思路就是先根据历史票房变化预测出春节档总票房,然后根据各导演、演员制作的历史电影质量、票房情况、SEO情况等预测出各电影票房占比,之后综合预测出各电影的实际票房。
1、获取数据
从m1095、票房网、豆瓣网等获取电影票房、质量、属性等数据,如下图:



获取数据如下:



影响电影票房的三个重要因素:电影质量、电影宣传力度、档期电影总票房。
2、用算法工具进行预测
使用FineBI的智能时序预测功能预测出2019年春节档首周总票房为76亿,预测步骤如下图:



3、预测电影质量,从而预测电影在该档期的票房占比
如何使用历史数据来预测电影质量?对于电影来讲不变的就是那些导演与演员,导演的水平与演员的水平基本决定电影质量从而影响电影票房。
为了客观衡量导演、演员水平,根据历史电影评分、导演信息、演员信息、票房信息、电影类型信息、评价信息等特征进行组合最终共有74个特征,再结合历史票房数据等通过加权算法分析得到四部电影的票房占比情况,处理后的数据如下:



4、结合SEO、市场响应等优化票房占比
电影票房还与SEO等相关,我们找寻了百度指数、微信指数、淘票票指数等数据,如下图:



从历史数据发现这些指数与电影票房呈正相关关系,也就是指数越高票房越高,加入这些指数后, 使用算法重新进行预测得到我们最后的票房预测结果如下:



结果不言而喻,依靠FineBI
数据工具算出的最小误差仅仅只有0.365%!
二、数据分析应用于店铺选址,预测销售额

衣架服饰是一家大型的品牌服装企业,每年都会在全国开设许多门店,那这店铺的选址怎么做呢? 一般的做法是组建一个选址团队,到现场进行实地考察,然后根据粗略统计的统计,预测一下这个地方的销售量会怎么样,然后对比分析之后靠经验选择一个地址。但这种方法成本大,效率低,误差大,而且非常仰仗经验。
为了解决这个问题,衣架服饰希望能够用更科学的方法优化店铺选址,于是我们的项目团队就想到了数据挖掘,用下面几步让问题迎刃而解:
1、数据处理
衣架原有的数据包括店铺基础数据以及旧店铺的历史销售数据,项目团队首先对这些已有的数据进行格式化统一,然后收集了原始数据没有的人流量、消费水平、消费时尚等数据,将获取的数据根据业务与后续算法实施来进行预处理,比如异常值删除、缺失值填补、数据标准化等处理。
如下图,是使用lof算法进行异常值筛选的过程:



2、特征工程与模型构建
所谓特征工程就是与预测结果相关的特征(指标)组合,也就是与新店铺相关的销售额特征组合。 该项目的原始数据加上结合业务知识生成的组合特征与leakage特征,构建的特征工程共计80余个,通过CFS、MRMR、MBF等方法综合分析,去除相关性权重不高的特征,最终剩余40余个。
然后建立算法模型,适合该项目的算法有决策树、随机森林、回归、XGBOST等。最后通过模型准确率以及模型与业务的契合度对比,选择了随机森林作为模型算法。
3、模型优化
模型优化主要是在找到模型可改进的地方之后所做的事情,比如模型算法的参数调整、特征工程调整等。该项目中模型优化过程除了参数调整,主要就是依据业务,进行特征工程的调整以及数据清洗。比如业务研究过程中发现新的相关特征,需要将其加入特征工程。
4、得出结果
在该项目中,将特征与销售额的相关性用权重来表示,权重越高表示该特征与销售额的相关性越强,权重结果如下:



利用建立的模型预测出某个新店铺一年的销售额,预测如下:



5、误差分析
预测的结果究竟准确不准确呢?团队将新店铺销售额拿来与人为预测销售额、实际销售额做了个误差分析,以此来衡量店铺销量预测误差。如下图所示,人为预测月平均误差为8.08万,算法预测月平均误差为1.478万,人为预测误差大概为算法预测误差6倍。算法预测最小误差仅300元,预测精度最高为99.7%!



注:以上数据挖掘案例都是依靠FineBI工具的数据分析功能实现的,还有很多类似的例子,说明数据分析完全可以应用到我们生活的各个方面,实现数据的最大价值化!



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评5

a88225573 2023-7-25 20:01:13 显示全部楼层
转发了
回复

使用道具 举报

tuofapl 2023-7-25 20:02:01 显示全部楼层
转发了
回复

使用道具 举报

坏蛋三号 2023-7-25 20:02:27 显示全部楼层
数据挖掘, 这2个案例从0到1讲清分析思路!
回复

使用道具 举报

wlyz88p 2023-7-25 20:03:06 显示全部楼层
转发了
回复

使用道具 举报

柩檬 2023-7-28 19:22:08 显示全部楼层
垃圾内容,路过为证。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies