一个案例告诉你，数据发掘如何用于企业消费

流云不留影 · 2019-2-18 07:11:10

数据发掘，你想到了什么？
聊到数据发掘话题时，大多数人的第一反应是什么？

就是那些教授学者搞得研讨吧，能用吗？都是唬人的吧？再理想一点，数据发掘能商用不？这玩意应该还是停留在学术界吧，能商用了？不信企业凭什么要用数据发掘？学术界的研讨都是理想化的，实践消费中业务复杂得多，怎样用？数据发掘能给企业带来价值？

也许你的心中也有上述相似成绩，甚至你曾经知道企业需求数据发掘但是不知道能不能做或者做出来怎样样而还在观望。
第一个吃螃蟹的胆小鬼

鲁迅先生曾言：“第一个吃螃蟹的人是很令人佩服的，不是胆小鬼谁敢吃它呢？”
从七月份至今，在帆软的客户中，吃了螃蟹的曾经有好几位，这些胆小鬼用他们的实践举动证明了数据发掘在企业消费中的价值，同时也逐一解答了上述的各种成绩。
首先来解答一下最关怀的成绩，数据发掘能给企业带来什么价值？能商用吗？
本次我们聚焦一下，一同来看看制造业行业企业是如何来吃数据发掘这只螃蟹的，他们的数据发掘是如何来做的，在供应链（SCM）中又有怎样的作用，能否可以真正为企业带来价值，从而使企业的运营优于之前。
对于该制药企业来讲，关注的点一是希望可以知道将来三个月的销量从而根据销量来做智能排产与物流调度，二是希望可以知道一切产品将来的销量从而针对性的对某些产品停止投入以此来促进销售额的增长。
但是之后人为预测的销量误差太大，不足以用来指点实践消费，因此，思索运用数据发掘来完成销量预测。
那该企业数据发掘实施的结果如何，能准到足够用来指点实践消费活动吗？
该企业总共有69个产品，由于数据质量成绩，最终可以用于做销量预测的产品总共49个产品，销量预测误差率如下图所示：

完成销量预测一切产品中只要4个产品的误差率高于百分之十，并且这4个产品在实践消费环境中由于数量的添加惹起之数据质量的提升，误差率也进一步降低。
该项目预测成果具有足够的可信度运用到实践消费中，协助该制药企业加速完成智能排产与智能物流调度，降低企业运营成本从而使企业利益达到最大化。
数据发掘，企业如何来用？

如上图，是帆软数据发掘项目架构图，次要分为模型开发与模型运用两个环节，模型开发包括数据预备、数据处理、特征工程构建、模型训练、模型评价、模型优化等，模型运用包括数据更新、模型自动更新、模型运用、运用管理等。
下面，我们着重引见模型一下开发的部分环节。
如何完成数据发掘？

1、数据预备与数据处理
销量预测的目的是用于排产与调度，其作用的基本单位是产品，产品之间互相独立，假如可以做到产品粒度的销量预测对于企业来说是极好的。所以结合企业需求以及数据状况，最终选择预测单产品销售额，该粒度的销售额预测对于企业来讲价值是最大的。
首先对数据停止探求，以此来协助我们选择合适的预测方法，对产品历史销售数据停止可视化展现，如下图：

经过BI分析工具FineBI，对产品销量停止可视化分析，发现产品销量具有很强的自回归性，且与工夫存在强相关性，多具有季节性、周期性等性质。因此，综合思索运用工夫序列预测来作为销量预测方法。
由于运用工夫序列预测来预测销量，所以选择过滤掉历史销量数据不延续的产品，即产品需求满足2016年1月至2017年12月有24个月的销售额，如下所示：

2、模型构建与训练
将不满足延续24个月销售额的产品删除后，分析每个产品的历史销量状况，发现每个产品的销量都与工夫相关，但是变化趋向各不相反，有的产品合适用移动平均算法来预测、有的产品合适用holt-winters算法来预测、有的产品合适用arima算法来预测，因此，无法运用同一个算法模型来完成一切产品的销量预测。
基于此，帆软完成了一套工夫序列全自动预测系统，能分析各产品的历史数据规律从而自动适配最合适且预测结果最好的工夫序列预测模型，以此来处理多产品多次完成算法模型导致的工作量繁重成绩。
ok，完成了产品的销量预测，那么预测的准还是不准？又有多准？假如不够准确企业自然不会选择运用，毕竟对于企业而言，很多决策都是牵一发而动全身的。
3、模型评价
在讲预测准确性之前先做一个名词解释,MAPE:后验加权误差，按照0.5*第一期的误差率+0.3*第二期的误差率+0.2*第三期误差率（由于时序预测模型都只合适做短期预测，所以给第一期的误差率较大权重而不求三期平均值）。

如上图所示，绝大部分的产品预测值MAPE值都小于0.1，证明这些产品的预测模型是准确且波动的，对于MAPE值大于0.1的产品，预测结果都经过了白噪声检验，证明这些产品模型曾经调到最优，由于数据属性的缘由导致预测结果不准，这部分产品在拥有更多的销量数据之后模型将自动优化。
4、模型优化与运用
项目测试误差如上，那么部署到实践消费环境中去，准确性会提升吗？

如上图，相比于项目开发过程，部署到实践环境中，单产品所拥有的销量数据多于2016年、2017年两年的销售数据，从预测结果以及误差验证结果来看，模型准确性进一步提升，其中开发过程中误差高于百分之十的产品，在实践消费环境中误差降到了百分之十以内。
可以发现，模型会随着数据的更新而重新训练更新，并且数据越多，在一定程度上对于模型的准确性有着促进作用。所以，随着数据与模型的迭代更新，产品预测销售额会愈加准确，对于指点实践消费会具有更高的指点意义。
5、运用价值
供应链（SCM）最早来源于彼得.德鲁克提出的"经济链",而后经由迈克尔.波特发展成为"价值链",最整天渐演化为"供应链"。供应链的核心目的是为了降低采购成本和物流成本，提高企业对市场和最终顾客需求的呼应速度，从而提高企业产品的市场竞争力。
该项目的产品销量预测的次要作用就是提早预知相对当前工夫将来三个月的销量，然后完成智能排产与物流调配，做到按量排产、按量调配。从而做到减少库存，提高企业发货供货才能；减少工作流程周期，提高消费率，降低供应链成本；减少总体采购成本，延长消费周期，加快市场呼应速度。最终完成企业利益最大化。
对于该制药企业来讲，经过帆软的销量预测功能完成对产品的销量预测，提早预知产品将来三个月的销量，为企业排产与物流调配提供了极大的数据支撑，为企业创造了宏大的经济价值。
世界上不缺吃螃蟹的人

上文讲述的某制药企业的销量预测案例传达一个信息----------数据发掘不再是唬人的，曾经在青螃蟹转变为红螃蟹的道路上了。
数据发掘之于这个时代相似蒸汽机之于第一次工业革命，回顾一下，自十八世纪六十年代截止至今，共阅历四次工业革命，分别是：
第一次工业革命：起约18世纪60年代直到19世纪30年代，以蒸汽机为代表，使消费从手工转向蒸汽动力，成就了英国的霸主地位。
第二次工业革命：19世纪70年代到20世纪20年代，以电力为代表，使消费从蒸汽动力转向电力，成就了美国，为其奠定了资本主义独一超级大国的基础。
第三次工业革命：20世纪40年代至今，以计算机代表，使消费从机械和模拟电路转向数字电路，成就了美国的霸主地位。
第四次工业革命：21世纪，以互联网产业化、人工智能为代表，使消费转向自动化、数据转变为价值，又将成就谁？
来找一下历史上三次工业革命的共同点？
是不是都有指导者、跟随者、不作为者三种角色？即第一个吃螃蟹的人、跟着吃螃蟹的人、不吃螃蟹的人。
然后再回顾一下，每次工业革命的最后，成就的是指导者与跟随者，失败的是不作为者吧？
此时，已然证明数据发掘这只螃蟹可吃。
SO? 假如对数据发掘项目感兴味，大家不妨先下载FineBI尝试和体验数据发掘功能吧。

会哭的雨 · 2019-2-18 07:13:51

分享了

da陳_儱 · 2019-2-18 07:18:46

分享了

鈊在 · 2019-2-18 14:26:29

传说中的沙发？？？哇卡卡

没钱的老男人 · 2019-2-18 22:23:25

		自动登录	找回密码
密码			立即注册

一个案例告诉你，数据发掘如何用于企业消费

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们