为什么数据发掘很难成功？

Kalon · 2020-8-28 17:11:48

作者：傅一平

大数据时代，数据发掘变得越加重要，曾经做了很多，成功有之，失败的却更多，举一些例子，探求其失败缘由，也许于大家都有启示吧。

数据缺失总是存在。

为什么数据发掘的数据预备工作要这么长工夫，可以了解成取数工夫很长、转换成所需的数据方式和格式工夫很长，毕竟只要这样做，才能喂给数据发掘引擎处理。

但数据预备的真正目的，其实是要从特定业务的角度去获取一个真实的数据世界，数据的获取比处理重要，技巧倒是其次了。

离网预测不断是很多业务范畴关注的焦点，特别是电信行业，但这么多年做上去，其构建的离网模型却难言成功，为什么？

由于数据获取太难了。

离网预测希望用客户历史的行为数据来断定将来一段工夫离网的能够性，但国内的电信市场并不波动，不只资费套餐复杂，大量的促销政策时时轰炸眼球，大家看得是繁华，但对于数据发掘人员来讲，却是业务了解和数据预备的凶讯了。

由于业务的了解很困难，数据完全被业务歪曲，假如要预测准确，不只本身业务促销的要素要思索出来，还要思索竞争对手策反政策、地域影响等等，你训练时看到的是一个简单的离网结果数据，但诱导要素异常复杂，这类要素相关的数据根本取不到或者难以量化。

比如电信离网很大程度是竞争对手策反、客户迁移离网等等，你知道竞争对手何时推出的促销政策吗？你知道客户什么时分搬的家吗？你如何用数据来表达这种影响？你的数据能顺应市场变化的节拍吗？

因此，假如某个合作伙伴来跟你说，我可以做电信行业的离网模型，那是个伪命题，离网模型曾经被电信行业做烂了，几乎没有成功的案例，即便一时成功也持续不了多久，只需业务不一致，就不大能够出现一个基本适用的离网模型，你无法想象全国10万个电信资费政策会对预测建模形成怎样的影响。

与互联网大一统的数据相比，其搞的风控模型显然要简单的多了，由于数据的获取难度和波动度不在一个量级上。

数据发掘，难就难在要为预测的业务提供跟这个业务相关的数据环境，因此，有时离网模型做不好，并不是模型师的错，也不是算法的成绩，而是业务惹的祸，是数据成绩。

你让开发出Alphgo的DEEP MIND团队来做离网模型，也是一个死字，这能够也是传统行业数据发掘很难出效果的一个缘由。

阿里的蚂蚁金服，所以能算法取胜，一个缘由是它天生具有线上的资金往来数据，假如让它去分析传统银行的线下数据，估计难度也很大。

数据发掘师特别强调要了解业务，就是希望你基于业务的了解能找到所需的解释数据，外来的和尚所以做不好，也是这个要素，由于打一枪换一个地方的方式，跟扎根了解业务的建模文明背道而驰。

数据预备，不确定性总是存在，因此一定程度上讲，这个世界是不可预测的，预测的才能，跟我们采集数据的才能成一定的正相关关系。

大数据的意义，就在于可以采集到更多的数据，这个决议了我们用机器解释世界的能够程度。

假数据真分析。

还是拿离网的例子，你就知道很多时分，所谓的解释数据，都是假数据，虽然你不是故意的，你还很仔细，但由于受限于业务才能，决议了你只能运用假数据，结果可想而知。

以前新手，在做离网预测的时分，总喜欢拿订购成功的数据作为训练的数据，但这个显然是个大错误。

要知道，大量的业务订购是套餐附带订购的，并不能反映用户的真实志愿，拿这个数据去训练，能训练出什么东西？这就是业务才能不够形成的现象。

如今互联网上估计这个现象很严重，比如刷单，这些假数据严重扰乱了模型，去伪存真是数据发掘师的一个必修课。

但这个，惋惜又跟业务才能相关，依赖于实际和阅历，假如让市场部经理转行去做数据发掘师，估计也很牛逼。

数据发掘，难就难在这里，其是业务、数据甚至是技术的结合体，在大数据时代，这个趋向会越加分明。

缺乏对于“常理”的感觉。

以下是一个社交网络的案例，场景是需求对于两个通话（或其它）交往圈停止重合度断定，以辨认两个手机号码能否属于同一个人。

规则似乎很简单，但发掘出来的结果却不尽善尽美，准确率只要12%，百思不得其解。

后来发现断定重合度的阈值是30%，这个也不能阐明有成绩，但成绩出在对于基数的断定上，大量的用户总的交往圈只要3-4个，也就是说，重合1个就能够达到这个阈值，很多新手或者过于迷信技巧的人，往往忽视业务本质的看法。

数据发掘不只仅是一门发掘言语，还要有足够的生活认知和数据感觉，这个很难短期可以提升，依赖于长期实际，甚至以为，这个跟情商相关，有些人就是有感觉，一眼能发现成绩。

缺乏迭代的才能。

很多传统企业，数据发掘效果不好，跟企业的组织、机制、流程等相关，举个例子：

曾经给外呼部门做了一个外呼偏好模型，就是对于一切客户的外呼偏好排个序，在外呼资源有限的条件下，按照这个排序停止外呼，可以提升外呼效率，然后发布到标签库，然后让外呼部门去用，等待反馈的工夫总是很长，大家都懂的，然后就杳无音信了。

最近想起来，再去要结果，发现效果很不错，能真正提升10个百分点啊，但曾经2个月过去了。

这还算一个较为成功的发掘，但又有多少模型由于线下流程的缘由而被放弃了，谁都知道，数据发掘靠的是迭代，很难第一次就成功，但有多少星星在末尾之时，就被掐灭了。

传统企业冗长的线下流程，的确成为了模型优化的大杀器，互联网公司天生的在线性让其算法发挥出宏大的价值，而传统企业的建模，往往还在为获得反馈数据而努力，组织、系统和运营上的差距很大。

推行是永远的痛。

很多传统企业不同地域上的业务差异，不只仅形成管理难度加大、体验不分歧、系统过于复杂、运营成本高昂，也让模型的建设和推行异常困难。

从模型本身的角度，不同地域的数据差异有时很大，在一个地方成功的模型，在另一个地方则完全失败，过拟合现象比比皆是。

从业务了解的角度，建模团队要面对几个甚至十多个做相似业务的团队，各个团队的业务了解上的差异和对于建模的要求各不相反，形成了建模团队的无所适从。

模型推行，成为了建模团队宏大的负担，复制模型，往往变成了重做模型，搜集结果数据也难上加难，数据发掘，曾经不是一项纯粹的活。

提了以上五点，只是为了阐明数据发掘所以难，是综合多种要素的结果，能够不是靠建立一个平台，懂得一些算法，掌握一个工具就能简单处理的，往往具有更深层次的缘由。

我们在努力掌握好“器”的同时，也要抬起头来，更片面的对待数据发掘这个事情，量体裁衣的制定合适本人企业特点的数据发掘机制和流程。

当然，大数据时代的到来，让平台，工具和算法也变得越加重要，这对数据建模师的知识结构也带来了新的冲击。

艾鱨 · 2020-8-28 17:12:56

分享了

禾禾禾禾 · 2020-8-29 14:28:04

高手云集果断围观

hy830216 · 2020-8-30 14:53:54

好棒的分享楼主多写点吧，写完记得通知我，哈哈

孺灼 · 2020-8-31 10:46:36

结束了嘛？有种还没完成的感觉，嘻嘻

		自动登录	找回密码
密码			立即注册

为什么数据发掘很难成功？

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们