智客公社

标题: 新手入门该如何系统地学习数据发掘？ [打印本页]

作者: 金刚攻老爷 时间: 2019-3-25 19:07
标题: 新手入门该如何系统地学习数据发掘？
大数据如今火到不行，究其缘由是大数据的价值引得各大企业趋之若鹜。其实大数据之所以价值潜力无量，其核心是数据发掘，发掘找到人们所需求的有价值的东西。但是这个过程又是怎样的呢？如何末尾？如何经过数据发掘过程中找到我们需求的东西呢？

[attach]115698[/attach]

在学习数据发掘之前应该明白几点：

数据发掘目前在中国的尚未盛行开，犹如屠龙之技。

数据初期的预备通常占整个数据发掘项目工作量的70%左右。

数据发掘本身交融了统计学、数据库和机器学习等学科，并不是新的技术。

数据发掘技术更合适业务人员学习（相比技术人员学习业务来的更高效）

数据发掘适用于传统的BI（报表、OLAP等）无法支持的范畴。

数据发掘项目通常需求反复一些毫无技术含量的工作。

学习一门技术要和行业靠拢，没有行业背景的技术如海市蜃楼。技术尤其是计算机范畴的技术发展是广泛且疾速更替的(十年前做网页设计都能成立公司)，普通人没有这个精神和工夫全方位的掌握一切技术细节。但是技术在结合行业之后就可以独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面可以累计行业阅历，运用互联网思想跨界让你更容易获得成功。不要在学习技术时想要八面玲珑，这样会得到你的核心竞争力。

一、目前国内的数据发掘人员工作范畴大致可分为三类

1)数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告。

2)数据发掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法完成和分析。

3)迷信研讨方向：在高校、科研单位、企业研讨院等高大上科研机构研讨新算法效率改进及将来运用。

二、说说各工作范畴需求掌握的技能

(1).数据分析师

需求有深沉的数理统计基础，但是对程序开发才能不做要求。

需求纯熟运用主流的数据发掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。

需求对与所内行业有关的一切核心数据有深化的了解，以及一定的数据敏感性培育。

经典图书引荐：《概率论与数理统计》、《统计学》引荐David Freedman版、《业务建模与数据发掘》、《数据发掘导论》、《SAS编程与数据发掘商业案例》、《Clementine数据发掘方法及运用》、《Excel VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。

(2).数据发掘工程师

需求了解主流机器学习算法的原理和运用。

需求熟习至少一门编程言语如(Python、C、C++、Java、Delphi等)。

需求了解数据库原理，可以纯熟操作至少一种数据库(Mysql、SQL、DB2、Oracle等)，可以明白MapReduce的原理操作以及纯熟运用Hadoop系列工具更好。

经典图书引荐：《数据发掘概念与技术》、《机器学习实战》、《人工智能及其运用》、《数据库系统概论》、《算法导论》、《Web数据发掘》、《Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。

(3).迷信研讨方向

需求深化学习数据发掘的实际基础，包括关联规则发掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目的可以先吃透数据发掘10大算法各自的运用状况和优缺陷。相对SAS、SPSS来说R言语更合适科研人员The R Project for Statistical Computing，由于R软件是完全收费的，而且开放的社区环境提供多种附加工具包支持，更合适停止统计计算分析研讨。虽然目前在国内盛行度不高，但是激烈引荐。

可以尝试改进一些主流算法使其愈加疾速高效，例照完成Hadoop平台下的SVM云算法调用平台–web 工程调用hadoop集群。需求广而深的阅读世界著名会议论文跟踪热点技术。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等;还有数据发掘相关范畴期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEETransactions on等。可以尝试参加数据发掘比赛培育全方面处理实践成绩的才能。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。

可以尝试为一些开源项目贡献本人的代码，比如Apache Mahout: Scalable machine learning and data mining,myrrix等(详细可以在SourceForge或GitHub.上发现更多好玩的项目)。

经典图书引荐：《机器学习》《形式分类》《统计学习实际的本质》《统计学习方法》《数据发掘适用机器学习技术》《R言语实际》，英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

在此我向大家引荐一个大数据开发交流圈：658558542 外面整理了一大份学习材料，全都是些干货，包括大数据技术入门，大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、引荐系统算法以及源码解析等，送给每一位大数据小伙伴，让自学更轻松。这里不止是小白聚集地，还有大牛在线解答！欢迎初学和进阶中的小伙伴一同进群学习交流，共同提高！

三、成为一名数据迷信家需求掌握的技能图

[attach]115699[/attach]

四、以下是通讯行业数据发掘工程师的工作感受

真正从数据发掘项目实际的角度讲，沟通才能对发掘的兴味爱好是最重要的，有了爱好才可以情愿研讨，有了不错的沟通才能，才可以正确了解业务成绩，才能正确把业务成绩转化成发掘成绩，才可以在相关不同专业人才之间清楚表达你的意图和想法，获得他们的了解和支持。所以我以为沟通才能和兴味爱好是个人的数据发掘的核心竞争力，是很难学到的;而其他的相关专业知识谁都可以学，算不上个人发展的核心竞争力。

说到这里能够很多数据仓库专家、程序员、统计师等等都要扔砖头了，对不起，我没有别的意思，你们的专业对于数据发掘都很重要，大家本来就是一个全体的，但是作为单独一个个体的人来说，精神有限，工夫有限，不能够这些范畴都能掌握，在这种状况下，选择最重要的核心，我想应该是数据发掘技能和相关业务才能吧

从另外的一个极端的例子，我们可以看，比如一个迷你型的发掘项目，一个懂得市场营销和数据发掘技能的人应该可以胜任。这其中他虽然不懂数据仓库，但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业的展现展现技能，但是只需他本人看的懂就行了，这就无需什么展现展现;后面说过，统计技能是应该掌握的，这对一个人的迷你项目很重要;他虽然不懂编程，但是专业发掘工具和发掘技能足够让他操练的;这样在迷你项目中，一个懂得发掘技能和市场营销业务才能的人就可以圆满完成了，甚至在一个数据源中根据业务需求可以无量无尽的发掘不同的项目思绪，试问就是这个迷你项目，单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展现展现技师、甚至单纯的一个发掘技术专家，都是无法胜任的。

这从另一个方面也阐明了为什么沟通才能的重要，这些个完全不同的专业范畴，想要有效无机地整合在一同停止数据发掘项目实际，你说没有好的沟通才能行吗?

数据发掘才能只能在项目实际的熔炉中提升、升华，所以跟着项目学发掘是最有效的捷径。国外学习发掘的人都是一末尾跟着老板做项目，刚末尾不懂不要紧，越不懂越知道应该学什么，才能学得越快越有效果。我不知道国内的数据发掘先生是怎样学的，但是从网上的一些论坛看，很多都是纸上谈兵，这样很糜费工夫，很没有效率。

另外如今国内关于数据发掘的概念都很混乱，很多BI只是局限在报表的展现和简单的统计分析，却也号称是数据发掘;另一方面，国内真正轨模化实施数据发掘的行业是屈指可数(银行、保险公司、移动通讯)，其他行业的运用就只能算是小规模的，比如很多大学都有些相关的发掘课题、发掘项目，但都比较分散，而且都是处于探索阶段，但是我置信数据发掘在中国一定是好的前景，由于这是历史发展的必然。

至于移动通讯的详细的数据发掘的运用，那太多了，比如不同话费套餐的制定、客户流失模型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型，太多了，记住，从客户的需求出发，从实际中的成绩出发，移动中可以发现太多的发掘项目。最后告诉你一个机密，当你数据发掘才能提升到一定程度时，你会发现无论什么行业，其实数据发掘的运用有大部分是重合的相似的，这样你会觉得更轻松。

感激您的观看，如有不足之处，欢迎批判指正。

对大数据感兴味的同窗可以关注我，并在后台私信发送关键字：“大数据”即可获取收费的大数据学习材料。

知识体系已整理好（笔记，PPT，学习视频），欢迎大家来支付！

作者: xhqwd159 时间: 2019-3-25 19:12
分享了

作者: 怨念的伊吹萃香 时间: 2019-3-26 10:00
有空一起交流一下

欢迎光临智客公社 (http://bbs.cnaiplus.com/)