数据挖掘，能挖出来什么

iaskbbs 发表于 2024-3-13 12:22:32

摘要：数据挖掘（Data Mining），号称能从数据里面挖“金子”，到底能够挖掘出来什么，对商业社会和其它行业的诸多场景有什么用处？本文通过几个案例，做一个简单回顾。

问：
数据挖掘与AI是什么关系？
答：
二者高度相关，互相渗透。
相同之处：底层的很多技术和原理是相通的，很多的算法模型，都是二者共用，很难进行清晰的分割。AI里面的机器学习技术近几年发展很快，其中的一些新算法几乎都可以用于数据挖掘。曾经有人认为AI里面才用到神经网络，数据挖掘不需要它，这显然是片面的。一些统计学方法作为数据挖掘的基础，在AI领域有时候也能展现出出人意料的效果。
不同之处：主要是应用目标不同。数据挖掘，也被称为知识发现，主要是从数据中发现那些人们凭借直觉很难察觉到的规律、模式和知识，以便人们做出更优化的决策。而AI则主要是模拟人类智能的各个方面，如感知、推理、学习、规划和决策等，让计算机表现出智能的行为。
“数据挖掘”这个词现在似乎不怎么火热，以往普遍把它归为商业智能（BI）的一部分，现在更多被归类为AI的范畴。有人将数据挖掘直接视为AI的一部分，似乎也无人强烈反对。
可能没必要在名称上强行区分二者。
问：
这样说，还是有点抽象。
从应用角度看，AI好像离我们更近一点，我们知道AI能下棋、自动驾驶、疾病诊断、人脸识别，跟人聊天，帮我们写文章，等等，我们越来越多地感受到它的进步和无处不在，比较好理解一点。
但对数据挖掘，还是比较生疏。你能举几个例子，说说数据挖掘到底是做什么吗？
答：
最早广为流传的一个例子，可能就是“啤酒与尿布”的故事了，在很多文章和教材中都被提到。
传闻，一家超市通过分析销售数据发现，周末购买尿布的消费者中，购买啤酒的比例也很高。惊讶之余，超市重新摆放了商品，把啤酒和尿布放在一起，结果二者的销售额都得到了提升。
深入调查背后的原因，发现是年轻的父母有了新生孩子后，很多家庭是由父亲来买尿布，他买完之后，会顺便奖励一下自己，捎上几罐啤酒，用于周末看球赛时享用。
问：
这个发现出人意料。
但看起来还是有点被动，属于事后的发现。有更主动发现的例子吗？
答：
也有。
另一家零售商场，用数据挖掘技术分析客户购买模式，能够识别客户（或客户家人）是否怀孕了，甚至有时比客户自己更早地意识到这一点。他们发现客户如果购买了无味乳液、钙和镁等补充剂，则很有可能是怀孕了。挖掘出这条知识后，他们就可以采取行动，将相关商品的折扣券定向发送给这类客户，吸引其前来购买。
问：
这会不会涉及到隐私泄漏，引起法律纠纷？
答：
是有这个风险。所以必须严格遵循法律法规，只在客户同意使用其行为数据用于数据分析的前提下，才去做相关的数据操作。这是另一个话题了。
问：
能举一个有具体效果数据的例子吗？
答：
我们来看一个早期游戏行业的个性化推荐的案例。
某款游戏以前推广游戏道具的方式比较简单，就是向全体玩家群发新上架的道具信息，但其实某些玩家在当时并不想购买，而且群发消息容易造成对玩家的骚扰，甚至激起玩家反感，因此效果不佳。于是数据挖掘人员根据玩家在游戏中的表现（在线时长、胜负比率等）、近期消费行为和账户余额情况、近期已购买道具情况，预测出各玩家尚未购买、但又感兴趣、很可能愿意购买的若干个道具，然后向其做有针对性的推荐。
实施这套方案后，玩家购买道具的金额相比于以往群发方式，人均增长了79%。
问：
这个增幅很惊人。看来，通过数据挖掘实现精准营销，有助于提升企业的销售额。
不过，可能一些人不太玩游戏，感受不深。能举一个大家更有切身体会的例子吗？
答：
举一个大家普遍关心的教育领域的例子吧。
有人曾经研究葡萄牙的两所中学的学生成绩，想找出学生成绩主要与哪些因素有关，并找出提高成绩的办法。
他们首先搜集数据，从学校档案里，以及后来的调查问卷中，了解每个学生的这些信息：年龄、性别、住址类别（住在城里还是乡村）、家庭人口数、父母在一起还是离异、父母亲受教育程度、父母亲工作类型、监护人是谁、通勤时间（从家里到学校耗时）、每周学习时间、有无参加课外活动、是否有升学意愿、家里能否上网、家庭关系质量、学生健康水平、年度旷课次数等，一共28项信息。
问：
对这些数据使用数据挖掘，能发现什么？
答：
首先发现了高分学生、低分学生的一些特征。比如说，

[*]有一类高分学生，他们的特征是：年龄<16.5岁，性别为女，旷课少于5次，母亲没受过高等教育，其平均成绩为76分。（100分为满分）
[*]一类低分学生的特征是：年龄<17.5岁，没有旷过课，母亲受教育程度为初中或更低，一周学习时间<2小时，其平均成绩为27.5分。
[*]另一类更低分的学生，其特征是：年龄>17.5岁，没有旷过课，母亲受教育程度为初中或更低，其平均成绩只有14分。
问：
这些发现有启发性。不过，我估计一些有经验的老师，长期在一线教学，对学生情况很了解的话，也能得出差不多的结论吧。非得用数据挖掘吗？
答：
的确，有经验的老师经过长期积累，脑海里也能建立起差不多的认知，但是，他们一般得不到数据挖掘那么系统、全面的结果，因为人的思维能力终究有限，当要考虑的因素太多（这里有28个待考虑因素），光靠人脑，很容易遗漏，一般超出3-4个因素，人就很难把握住了，而且一般也得不到类似于“年龄<17.5岁”这种定量判断条件的。
年轻老师虽然经验不足，但借助于数据挖掘工具，也能得到与老教师相当、甚至超越老教师的知识，那何乐而不为呢？
在电脑（数据挖掘）比人脑干得更好的情况下，或许没必要拿人脑与电脑拼。
问：
这个例子里面，还能找出一些什么规律吗？
答：
还发现一些因素具体是如何影响学习成绩的，即一些定量上的关系，例如：

[*]年龄每增加1岁，成绩降低2分；
[*]家庭成员每增加1人，成绩降低4分；
[*]父母受教育程度越高，成绩越好；
[*]上学路途耗时每增加15分钟，成绩降低2分；
[*]一周学习时间每增加2小时，成绩提高3分；
[*]想升学（有学习目标），相对于不想升学，成绩高12分；
[*]每多旷课1天，成绩就提高0.15分。
（为简化起见，一些数值做了四舍五入。）
问：
前面几条，应该还说得通，符合我们的预想。但最后一条，有点违反直觉，为什么越旷课，成绩还越好？
答：
这一条之所以被挖掘出来，很可能还是数据量不太够，当时只搜集了395名学生的资料，会带来一些不确定性和误差。
数据挖掘的流程中，还会从统计学角度，分析挖出来的每一条新知识的可信程度。关于最后这一条，很可能它的可信程度并不高，因此可以忽略，不用太担心。
问：
发现的这些知识，是对每一个学生都有效，还是对学生群体有效？比如说，如果学生Bob每周增加2小时学习时间，那么他的分数就一定能从原来的63分增加到66分吗？
答：
这些知识是针对学生群体的，是一个平均情况，即如果一群学生的每周学习时间平均增加2小时，则他们的平均成绩将增加3分。具体谈论到某一个学生时，则有个体差异，不一定这个学生刚好增加3分。
问：
那也不错，这些知识还是有指导意义的。
学生家长如果看到这些结论，可能会去想，为了提高自己子女的成绩，后续的努力方向在哪里，比如说：应该努力提高自身的受教育程度，搬家到离学校更近的地方居住（减少通勤耗时），督促孩子适当增加每周学习时间，并早早树立升学目标，等等。
答：
是的。这就是数据挖掘的用处，可以对家长的决策提供支持。
其实，在这个例子里，研究人员只搜集了关于学生的28项信息，你有没有想过，如果同时还搜集教师和学校的信息，那么是否也能挖掘出来，教师和学校应该如何努力，才能提高学生的成绩？
问：
对呀。完全可以举一反三。设想一下，如果在以上28项信息的基础上，增加这些项：

[*]教师的基本属性：年龄、性别、学历、教学年限、教学方式特点等；
[*]教师的行为：课堂提问次数、安排小考次数、布置作业量等；
[*]学校的行为：对教师的考核方式、对学生的激励方式、课程设置等。
那么，应该就能挖掘出，为了提高学生成绩，教师和校方应该如何做了。
答：
正是。不过，搜集数据时，涉及的教师数量、学校数量，也要足够多才行。
相信教师和校方在多年实践中，对于提高学生成绩也积累了丰富的经验，但如果采用数据挖掘，说不定还能发现一些盲点，即平时被忽视的因素作用，然后据此做一些措施调整，相信能得到更大的收获。
还有一个方便之处：在成本允许的条件下，你可以把你想到得的所有可能的影响因素数据全部搜集起来，数据挖掘工具会自动判断哪些是主要影响因素，哪些是次要的，并不需要我们事先做手工筛查（既低效也不够准确）。—— 也就是说，数据挖掘能以科学的方式，帮助我们抓住主要矛盾，定位主要影响因素，避免人类思维可能因各种干扰而执着于某些次要因素上。
在上例中，分析发现，“家里能否上网、家庭关系质量、学生健康水平”等几项信息几乎从来没有出现在结果中，暗示着它们不那么重要，是次要因素，对成绩影响不大。
问：
还有什么令人惊奇的数据挖掘例子吗？
答：
有一个数据挖掘帮助抓坏人的案例。
美国洛杉矶和圣塔克鲁兹两个城市的警察局，借助于一种数据挖掘算法（从地震余震预测算法改造而来），根据城市积累了80多年的详细犯罪数据，预测各个区域未来某天的发生罪案的类型和概率，并以此为依据，对警力配置和调度做出优化。换句话说，可以对该天犯罪概率高的区域增派警力，甚至提前蹲守。这套算法投入使用后的那些区域，灭罪效果很明显，入室盗窃和暴力犯罪分别下降了33%、21%。
问：
这确实很管用。
还有别的例子吗？
答：
还有很多，比如：

[*]根据应聘者简历，判断其将来的发展潜力，作为是否录用的依据之一；
[*]电子地图的导航，预估你开车从起始地到目的地所需时间；
[*]城市智慧交通里，对交通控制（包括红绿灯）进行优化，提高通行效率；
[*]鉴定飞天茅台酒的真伪；
[*]科研：通过分析从大型强子对撞机（LHC）收集的大量数据，成功发现希格斯玻色子，这是一种有助于解释宇宙质量起源的基本粒子。
还可以列举很多。十多年前，某互联网公司对自身业务，整理出了86个数据挖掘可应用场景，如今业务更复杂，数据更多，可应用之处也应该更多了。
问：
看起来，只要有数据，就可以用数据挖掘找出数据之间的关联关系，用于判断和预测了。
答：
也不能迷信它。数据挖掘是一把利刃，但对某些情况，即使有数据，它也挖不出来你想要的东西。
问：
哪些情况？
答：
例如，

[*]仅仅根据用户的登录和浏览行为数据，想判断其是否为“开百万豪车的家庭主妇”；
[*]赌场二十一点猜牌；
[*]下一期彩票中奖数字；
[*]某只股票次日的收市价。
问：
第一个例子，感觉很难判断准确，已有的数据与目标任务之间的关联太弱了。
后面三个如果真能做到，世界就要大乱了。
答：
是的。数据挖掘不是魔术，当缺少必要的辅助信息，或者问题本质太复杂、太随机，几乎没有规律可循，它也无能为力，即使勉强得到一些精度极差的低质量结果，也没有应用价值。
如果用到合适的地方，数据挖掘的价值还是很大的，它让人们在做出决策前更有底气，比拍脑袋乱猜强多了。

颖伊儿 发表于 2024-3-13 19:07:55

只看文字不过瘾啊~

狼飞天地 发表于 2024-3-14 08:21:20

强烈关注楼主~请继续！

xhl396380909 发表于 2024-3-14 14:02:32

OMG！介是啥东东！！！

页: [1]

智客公社's Archiver

数据挖掘，能挖出来什么