找回密码
 立即注册
搜索

这能够是最简单易懂的机器学习入门(附论文)




来源:专知

本文共4354字,建议阅读8分钟。

本文用粗浅易懂的言语精准概括了机器学习的相关知识,内容片面,总结到位,非常详尽。合适小白疾速了解机器学习。

[ 导读 ]本文用粗浅易懂的言语精准概括了机器学习的相关知识,内容片面,总结到位,分析了机器学习的what,who,when, where, how,以及why等相关成绩。从机器学习的概念,到机器学习的发展史,再到机器学习的各类算法,最后到机器学习的最新运用,非常详尽。合适小白疾速了解机器学习。




你能否运用像Siri或Alexa这样的个人助理客户端?你能否依赖渣滓邮件过滤器来保持电子邮件收件箱的干净?你能否订阅了Netflix,并依赖它惊人的准确引荐来发现新的电影可看?假如你对这些成绩说“是”,恭喜你!你曾经很好地应用了机器学习!

虽然这听起来很复杂,需求大量的技术背景,但机器学习实践上是一个相当简单的概念。为了更好地了解它,让我们研讨一下关于机器学习的what,who,when, where, how,以及why。

什么是机器学习?

One day ladies will take their computers for walks in the park and tell each other, “My little computer said such a funny thing this morning”.

—Alan Turing

机器学习的核心是“运用算法解析数据,从中学习,然后对世界上的某件事情做出决议或预测”。这意味着,与其显式地编写程序来执行某些义务,不如教计算机如何开发一个算法来完成义务。有三种次要类型的机器学习:监督学习、非监督学习和强化学习,一切这些都有其特定的优点和缺陷。




监督学习触及一组标记数据。计算机可以运用特定的形式来辨认每种标记类型的新样本。监督学习的两种次要类型是分类和回归。在分类中,机器被训练成将一个组划分为特定的类。分类的一个简单例子是电子邮件帐户上的渣滓邮件过滤器。过滤器分析你以前标记为渣滓邮件的电子邮件,并将它们与新邮件停止比较。假如它们婚配一定的百分比,这些新邮件将被标记为渣滓邮件并发送到适当的文件夹。那些比较不相似的电子邮件被归类为正常邮件并发送到你的邮箱。

第二种监督学习是回归。在回归中,机器运用先前的(标记的)数据来预测将来。天气运用是回归的好例子。运用气候事情的历史数据(即平均气温、湿度和降水量),你的手机天气运用程序可以查看当前天气,并在将来的工夫内对天气停止预测。

在无监督学习中,数据是无标签的。由于大多数真实世界的数据都没有标签,这些算法特别有用。无监督学习分为聚类和降维。聚类用于根据属性和行为对象停止分组。这与分类不同,由于这些组不是你提供的。聚类的一个例子是将一个组划分成不同的子组(例如,基于年龄和婚姻状况),然后运用到有针对性的营销方案中。降维经过找到共同点来减多数据集的变量。大多数大数据可视化运用降维来辨认趋向和规则。

最后,强化学习运用机器的个人历史和阅历来做出决议。强化学习的经典运用是玩游戏。与监督和非监督学习不同,强化学习不触及提供“正确的”答案或输入。相反,它只关注功能。这反映了人类是如何根据积极和消极的结果学习的。很快就学会了不要反复这一动作。异样的道理,一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后,国际象棋的这一基本教训就可以被扩展和推断出来,直到机器可以打(并最终击败)人类顶级玩家为止。




但是,等等,你能够会说。我们是在说人工智能吗?机器学习是人工智能的一个分支。人工智能努力于创造出比人类更能完成复杂义务的机器。这些义务通常触及判别、策略和认知推理,这些技能最后被以为是机器的“禁区”。虽然这听起来很简单,但这些技能的范围非常大——言语处理、图像辨认、规划等等。

机器学习运用特定的算法和编程方法来完成人工智能。没无机器学习,我们后面提到的国际象棋程序将需求数百万行代码,包括一切的边缘状况,并包含来自对手的一切能够的移动。有了机器学习,我们可以将代码量减少到以前的一小部分。很棒对吧?

有一个缺失的部分:深度学习和神经网络。我们稍后会更详细地讨论它们,请留意,深度学习是机器学习的一个子集,专注于模拟人类大脑的生物学和过程。

谁发展了机器学习?何时何地?

A breakthrough in machine learning would be worth ten Microsofts.—Bill Gates

在我看来,机器学习最早的发展是Thomas Bayes 在1783年发表的同名实际,贝斯定理发现了给定有关相似事情的历史数据的事情的能够性。这是机器学习的贝叶斯分支的基础,它寻求根据以前的信息寻觅最能够发生的事情。换句话说,Bayes定理只是一个从阅历中学习的数学方法,是机器学习的基本思想。




几个世纪后,1950年,计算机迷信家 Alan Turing发明了所谓的图灵测试,计算机必须经过文字对话一个人,让人以为她在和另一个人说话。图灵以为,只要经过这个测试,机器才能被以为是“智能的”。1952年,Arthur Samuel创建了第一个真正的机器学习程序——一个简单的棋盘游戏,计算机可以从以前的游戏中学习策略,并提高将来的功能。接着是Donald Michie 在1963年推出的强化学习的tic-tac-toe程序。在接上去的几十年里,机器学习的提高遵照了异样的形式--一项技术打破导致了更新的、更复杂的计算机,通常是经过与专业的人类玩家玩战略游戏来测试的。

它在1997年达到巅峰,当时IBM国际象棋电脑深蓝(Deep Blue)在一场国际象棋比赛中击败了世界冠军加里·卡斯帕罗夫(Garry Kasparov)。最近,谷歌开发了专注于古代中国棋类游戏围棋(Go)的AlphaGo,该游戏被普遍以为是世界上最难的游戏。虽然围棋被以为过于复杂,以致于一台电脑无法掌握,但在2016年,AlphaGo终于获得了成功,在一场五局比赛中击败了Lee Sedol。

机器学习最大的打破是2006年的深度学习。深度学习是一类机器学习,目的是模拟人脑的思想过程,常常用于图像和语音辨认。深度学习的出现导致了我们明天运用的(能够是天经地义的)许多技术。你有没有把一张照片上传到你的Facebook账户,只是为了暗示给照片中的人贴上标签?Facebook正在运用神经网络来辨认照片中的面孔。或者Siri呢?当你问你的iPhone关于明天的棒球成绩时,你的话语会用一种复杂的语音解析算法停止分析。假如没有深度学习,这一切都是不能够的。

要获得更片面的机器学习工夫表,请务必查看这篇由Google云团队撰写的伟大文章!

(https://cloud.withgoogle.com/build/data-analytics/explore-history-machine-learning/)

机器学习是如何工作的?

留意一切对数学恐惧的读者:我很遗憾地告诉你,要完全了解大多数机器学习算法,就需求对一些关键的数学概念有一个基本的了解。但不关键怕!所需的概念很简单,并且自创了你能够曾经上过的课程。机器学习运用线性代数、微积分、概率和统计。




Top 3线性代数概念:

1.矩阵运算;

2.特征值/特征向量;

3.向量空间和范数

Top 3微积分概念:

1.偏导数;

2.向量-值函数;

3.方向梯度

Top 3统计概念:

1.Bayes定理;

2.组合学;

3.抽样方法

对于特定的数学资源,我激烈引荐这篇来自MetaDesignIdeas的文章。

(https://medium.com/meta-design-ideas/math-stats-and-nlp-for-machine-learning-as-fast-as-possible-915ef47ced5f)

一旦你对数学有了基本的了解,就该末尾思索整个机器学习过程了。有五个次要步骤:




下面的图表以比较清楚的方式解释了步骤,所以在我们关注最关键的部分:为数据和状况选择正确的算法之前,花一分钟的工夫来研讨它。

We don’t have better algorithms, we just have more data.—Peter Norvig

让我们回顾一下算法的一些常见分组:

1. 回归算法

这能够是最盛行的机器学习算法,线性回归算法是基于延续变量预测特定结果的监督学习算法。另一方面,Logistic回归专门用来预测团圆值。这两种(以及一切其他回归算法)都以它们的速度而出名,它们不断是最疾速的机器学习算法之一。




2. 基于实例的算法

基于实例的分析运用提供数据的特定实例来预测结果。最著名的基于实例的算法是k-最近邻算法,也称为KNN。KNN用于分类,比较数据点的间隔,并将每个点分配给它最接近的组。




3. 决策树算法

决策树算法将一组“弱”学习器集合在一同,构成一种强算法,这些学习器组织在树状结构中,互相分支。一种盛行的决策树算法是随机森林算法。在该算法中,弱学习器是随机选择的,这往往可以获得一个强预测器。在下面的例子中,我们可以发现许多共同的特征(就像眼睛是蓝的或者不是蓝色的),它们都不足以单独辨认动物。但是,当我们把一切这些观察结合在一同时,我们就能构成一个更残缺的画面,并做出更准确的预测。




4. 贝叶斯算法

丝毫不奇异,这些算法都是基于Bayes实际的,最盛行的算法是朴素Bayes,它常常用于文本分析。例如,大多数渣滓邮件过滤器运用贝叶斯算法,它们运用用户输入的类标记数据来比较新数据并对其停止适当分类。




5. 聚类算法

聚类算法的重点是发现元素之间的共性并对它们停止相应的分组,常用的聚类算法是k-means聚类算法。在k-means中,分析人员选择簇数(以变量k表示),并根据物理间隔将元素分组为适当的聚类。

6. 深度学习和神经网络算法

人工神经网络算法基于生物神经网络的结构,深度学习采用神经网络模型并对其停止更新。它们是大、且极其复杂的神经网络,运用大批的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经过几个隐藏层后才产生一个或多个输入。这些衔接构成一个特定的循环,模拟人脑处理信息和建立逻辑衔接的方式。此外,随着算法的运转,隐藏层往往变得更小、更纤细。




7. 其他算法

下面的图表是我发现的最好的图表,它展现了次要的机器学习算法、它们的分类以及它们之间的关系。




The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning….Before we demand more of our data, we need to demand more of ourselves.—Nate Silver

一旦你选择并运转了你的算法,还有一个非常重要的步骤:可视化和交流结果。虽然与算法编程的细节相比,这看起来既愚笨又肤浅,但是良好的可视化是优秀数据迷信家和伟大迷信家的关键隔膜。假如没有人可以了解,那么惊人的洞察力又有什么用呢?

为什么机器学习很重要?

Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI will transform in the next several years.— Andrew Ng

如今应该清楚的是,机器学习有宏大的潜力来改变和改善世界。经过像谷歌大脑和斯坦福机器学习小组这样的研讨团队,我们正朝着真正的人工智能迈进一大步。但是,确切地说,什么是机器学习能产生影响的下一个次要范畴?
    物联网

物联网(Internet of Things),或者说IOT,是指你家里和办公室里联网的物理设备。盛行的物联网设备是智能灯泡,其销售额在过去几年里猛增。随着机器学习的提高,物联网设备比以往任何时分都更聪明、更复杂。机器学习有两个次要的与物联网相关的运用:使你的设备变得更好和搜集你的数据。让设备变得更好是非常简单的:运用机器学习来个性化您的环境,比如,用面部辨认软件来感知哪个是房间,并相应地调整温度和AC。搜集数据愈加简单,经过在你的家中保持网络衔接的设备(如亚马逊回声)的通电和监听,像Amazon这样的公司搜集关键的人口统计信息,将其传递给广告商,比如电视显示你正在观看的节目、你什么时分醒来或睡觉、有多少人住在你家。



    聊天机器人

在过去的几年里,我们看到了聊天机器人的激增,成熟的言语处理算法每天都在改进它们。聊天机器人被公司用在他们本人的移动运用程序和第三方运用上,比如Slack,以提供比传统的(人类)代表更快、更高效的虚拟客户服务。



    自动驾驶

我个人最喜欢的下一个大型机器学习项目是最远离广泛消费的项目之一。但是,目前有几家大型公司正在开发无人驾驶汽车,如雪佛兰、Uber和Tsla。这些汽车运用了经过机器学习完成导航、维护和安全程序的技术。一个例子是交通标志传感器,它运用监督学习算法来辨认和解析交通标志,并将它们与一组标有标记的标准标志停止比较。这样,汽车就能看到停车标志,并看法到它实践上意味着停车,而不是转弯,单向或人行横道。




这就是我们进入机器学习世界的非常短暂的旅程。感激观看。

原文链接:

https://medium.com/@lizzie_turner/lets-talk-about-machine-learning-ddca914e9dd1

转载请注明THU数据派

运营人员:冉小山

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评18

迪拜小女子 2019-6-12 14:47:37 显示全部楼层
不错,于珠海
回复

使用道具 举报

桔子柚子 2019-6-12 14:48:01 显示全部楼层
这个说得好!
回复

使用道具 举报

网络流氓 2019-6-12 14:57:41 显示全部楼层
Mark
回复

使用道具 举报

搁置Z 2019-6-12 15:06:54 显示全部楼层
写的不错
回复

使用道具 举报

康1126 2019-6-12 15:14:15 显示全部楼层
分享了
回复

使用道具 举报

克拉10 2019-6-12 15:14:53 显示全部楼层
分享了
回复

使用道具 举报

aqxu001 2019-6-12 15:20:04 显示全部楼层
分享了
回复

使用道具 举报

eyeofnature 2019-6-12 15:28:25 显示全部楼层
分享了
回复

使用道具 举报

鹿泉烟火 2019-6-12 15:39:45 显示全部楼层
分享了
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies