找回密码
 立即注册
搜索

零基础入门数据发掘,看完这份详细的学习指南就够了!(附材料)

AI时代,在招聘网站公布的招聘数据中,“算法”、“机器学习”、“数据发掘”相关岗位平均招聘薪资高于其他同等学历、工龄要求的技术岗位30%以上甚至更高,吸引了一大波人末尾学习数据发掘。

明天本篇就来说说,对于零基础小白,应该如何入门数据发掘,并且在文中附上我之前用过的学习材料及书籍。
数据发掘的基本概念

先来了解一下什么是数据发掘。

数据发掘是从大量的数据中,发掘出未知的且有价值的信息和知识的过程。但是不是一切的信息发现都能叫数据发掘,比如经过数据库查找个别记录,经过搜索引擎查找特定的网页等,这些都属于信息检索,数据发掘是数据库中的知识发现,把没加工的数据转换为有用信息的过程。




机器学习和数据发掘有什么区别?

机器学习和数据发掘很相似,很多人以为两个说的是一样的东西,虽然两者本质上的区别不大,但是还是有一些粗大的区别:

机器学习更侧重于技术方面和各种算法,普通提到机器学习就会想到语音辨认,图像视频辨认,机器翻译,等等各种形式辨认,核心就是各种精妙的算法。

数据发掘更倾向于“数据”而不是算法,它包括了很多数据的后期处理,数据的爬取、清洗、整合,数据的有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。后期数据处理的工作比较多。

所以,数据发掘的范畴要更广泛一些
数据发掘需求哪些技能?

我是前几年入坑数据发掘的,纯粹是个人爱好,由于有好几年的数据分析基础,我上手起来不是特别困难,类比数据分析,我也给大家梳理一下数据发掘的一些必备技能




编程言语

数据发掘和数据分析不一样,数据分析可以应用一些现成的分析工具完成,但是数据发掘绝大部分要依赖于编程,在数据发掘范畴常用的编程言语有R、Python、C++、java等,R和python是最受欢迎的两种,能够有一部分人之前在接触数据分析的时分学过python,假如做数据发掘的话,我也引荐python

引荐学习书籍:《Python核心编程(第二版)》,《应用Python停止数据分析》




大数据处理框架

做数据发掘不可避免的要接触大数据,目前常用的大数据框架就两个,Hadoop和Spark,Hadoop的原生开发言语是Java,材料多,Spark的原生开发言语是Scala,不过也有Python的API。




数据库知识

这个不用多说,既然是和数据打交道,数据库知识自然少不了,常见关系数据库和非关系数据库知识都要掌握,假如要处理大数量数据集,就得掌握关系型数据库知识,比如sql、oracle。详细设计的知识点,看下图:




引荐学习书籍:《SQL必知必会》、《数据库系统概念》、《Redis设计与完成》、《高功能MySQL(第3版)》(顺序由入门到进阶)

数据结构与算法

知晓数据结构和算法对数据发掘来说相当重要,在数据发掘岗位面试中也是问的比较多的,数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等

关于数据结构和算法的学习,很多人引荐《算法导论》和《数据结构与算法分析(C言语描画)》这两本书,这两本我都看过,个人觉得《算法导论》太好看完了,外面虽然讲的很细致,但是晦涩难懂,所以我引荐《算法(第4版)》,虽然这本书运用Java讲解常见的算法,但是基本上没有特别难懂的语法,没有Java基础也能轻松看懂

应付面试的话,光看《算法(第4版)》还不够,建议再刷两本应试书籍,比如《程序员代码面试指南》或者《直通BAT面试算法精讲课》




机器学习/深度学习

机器学习是数据发掘的最重要部分之一。 机器学习算法可建立样本数据的数学模型,来停止预测或决策, 深度学习是更广泛的机器学习方法系列中的一部分。这部分的学习次要分两块,一是掌握常见机器学习算法原理,二是运用这些算法并处理成绩。




机器学习入门,激烈引荐吴恩达教师的《机器学习》的视频,地址:https://www.coursera.org/learn/machine-learning基本上80%的人入门机器学习都是靠这个视频。详细提纲我就不列了,大家本人看,我的建议是直接按顺序学,可以反复多看两遍。

引荐书籍:周志华的《机器学习》,这本书的结构很明晰,实际和实际都有设计,是一本不错的学习书




统计学知识

数据发掘是一个交叉学科,不只触及编程和计算机迷信,还触及到多个迷信范畴,统计学就是不可获取的一部分,它可以帮我们更快的辨认成绩,区分因果关系和相关性。

引荐学习书籍:李航的《统计学习方法》、《统计学》(原书第5版)




沟通表达才能

和数据分析一样,做数据发掘不光要处理数据,而且还要向其别人解释我们数据发掘的结果和见解,而且在大部分的企业中,汇报的对象往往都是一些没有技术基础的业务人员,所以这个岗位也相当考验沟通和表达才能
学习资源

最后,干货奉上!数据发掘的学习网站和课程资源:

学习网站:
    W3Cschool https://www.w3cschool.cn/r/菜鸟教程 http://www.runoob.com/中国大学MOOC https://www.icourse163.org/category/computer慕课网 https://www.imooc.com/网易云课堂 https://study.163.com/category/excel?utm_source=baidu&utm_medium=cpc&utm_campaign=affiliate&utm_term=zyexcel_023&utm_content=SEM

论坛博客:
CSDN: https://www.csdn.net/ 做数据的都知道这个博客。功能非常片面的社区型网站,论坛只是其一部分功能DMI:数据发掘学院:http://www.cs.wisc.edu/dmi/50 data miningresources:https://www.ngdata.com/data-mining-resources/抢手数据发掘资源:50个教程,文章和视频,用于学习数据发掘方法,分析等

文中提到的书籍资源,分享收藏本文,后台回复“数据发掘”支付!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

lingzi520 2020-6-28 20:21:46 来自手机 显示全部楼层
有点兴趣,要有详细介绍就好啦。
回复

使用道具 举报

sailing 2020-6-29 13:30:55 显示全部楼层
有没有什么需要注意的?
回复

使用道具 举报

曾勇明 2020-6-30 17:29:08 来自手机 显示全部楼层
赞赞赞赞赞赞赞赞
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies