找回密码
 立即注册
搜索

菜鸟级机器学习入门(附代码实例)



作者:Ben Sanders
翻译:吴慧聪
校正:郑滋
本文约2400字,建议阅读10分钟。
本文将简要引见什么是机器学习,其运作原理,以及两个次要的机器学习的算法。
简介

本文中,数据迷信创业公司Yhat的前结合创始人,现任Waldo的结合创始人兼首席技术官Greg Lamp将会为我们这些机器学习菜鸟分享他对机器学习的看法。







目录

一、什么是机器学习?

  • 机器学习是一个知识熔炉 –没什么新知识
二、机器学习是如何工作的?
三、机器学习的算法: 分类(Classification)与回归(Regression)

  • 算法引见
  • 过拟合(Overfitting)
四、什么是Tensorflow?
五、为什么机器学习会如此抢手?

一、什么是机器学习?

我以为机器学习的定义是运用数据去寻觅数据模型。这次要包括两个次要的概念:

  • 运用数学和统计的知识优化模型 ;
  • 这个优化模型的过程称为训练(Training)。





互联网对机器学习的描画
一个能够会令一些人不高兴的观点来了。
人工智能和机器学习是一个相反的东西。
没错,机器学习(Machine Learning)和人工智能(AI)的确是一个回事,但的确言过其实。当那些市场营销的同行讲起人工智能,他们以为人工智能能够最终会发展到统治人类的地位。我也赞同这些看法。 这的确是一个很好的概括了机器学习的观点,由于机器学习曾经可以自学习任何输入的数据。
再者,人工智能在将来还有潜在的发展空间。





互联网对人工智能的描画。看,多么像

  • 没有什么新知识
我以为机器学习最风趣的应该是它没有真正的新知识。次要盛行的机器学习算法曾经盛行了一段工夫。这时期机器学习最大的变化是计算机变得:

  • 更快
  • 更便宜
  • 更方便
由于上述计算机的三大发展特点和机器学习库的不断扩展和便于运用,比如scikit-learn, tensorflow和R(统计学常用的机器学习的言语),越来越多的人会接触到机器学习的内容。可及性在有限的运用量上反过来促进了传播。
二、机器学习是如何工作的?

在机器学习中可以运用不同的算法去寻觅数据的模型。虽然这些算法都是做相反的事情:读取数据并赋予这些数据一个权重。但是这些权重可以用于预测将来相反方式的数据。
在过去几年中,机器学习在数据读取上有一个大的跃进,在算法上,对于数据读取的严厉的限制条件被减少了。但虽然这样,基本上一切的算法都需求读取简约,格式分歧的数据以提高运算效率。
如今当这些算法需求训练(Train)和校正(Calibrate)的时分, 其实是需求去找出一组点之间的最小间隔。让我们看图更能说清楚。





以上图为例。这是一个经典的线性回归(Simple Linear Regression)的例子。蓝点表示想要预测的数据。红线表示“最佳拟和线”,该线是机器学习算法中(用于线性回归的例子)最好地表示数据集特征。
你可以运用这条线去预测后面的观测数据。
三、分类(Classification)与回归(Regression)

我知道我的读者们在想什么了,接上去能够我会来讲讲 Tensorflow以及如何运用它在来满足你最狂野的希望和梦想的同时使得业务盈利。 但你们能够曲解了。
下面将概述机器学习的两个次要的算法。
绝大多数机器学习义务分为两类:

  • 回归:预测一个数值(例如价格或失效工夫)
  • 分类:预测某个事物的类别(狗/猫,好/坏,狼/牛)
在回归中,你要尽量计算的是一条将要位于一切数据点“中间”的线(如上所示)。在分类中,你要计算的是一条将要把数据点“分类”的线。








  • 算法引见
这是最酷的一部分。不同的算法可以运用不同的外形,数字和线的种类来计算中间线或分离线。例如,在下面的狼和牛例子中,有3种不同的算法用于分隔每个类别。如你所见,由于支撑向量机(SVM)的方法是非线性的,这意味着它不必运用直线。但是当运用逻辑回归(Logistic Regression)的方法,由于它是线性的,只能经过直线来分离数据点。第三个例子是决策树(Decision Tree),它运用设置的自动生成的规则来分隔类别。
所以为什么我们不能只运用最复杂的方法呢?

  • 过拟合
如今照旧不是讲Tensorflow的时分。
好吧,有时分你的模型能够太聪明了。我知道这似乎是倒退了一步,但这是真的。这模型的确是对的。你的人工智能模型能够非常擅长了解你所展现的数据集。因此,用于预测将来就不准确了。
举出一个类比的例子。比如在产品管理这样的范畴,假如你与一位客户交谈,他们说他们不会购买你的产品,除非按钮是青色的。由于他们公司在徽标和品牌中运用的异样心爱的青色暗影。





青色的按钮
假如您是一名蹩脚的产品经理,那么你能够会听取该客户的意见,并使把网站的一切按钮都变成青色。这就是过度拟合。
但你不是一个蹩脚的产品经理。你知道,虽然这个客户能够由于你没有青色按钮而不会购买你的产品,但你知道还有很多其他客户不会对按钮颜色不称心。这是由于您对典型客户关怀的内容有一个的固有的心思模型。
四、你还打算讲TensorFlow吗?

好,如今来讲一下Tesnorflow。Tensorflow是一个Google消费的机器学习库。但它并不是那么容易运用。你需求知道本人在做什么,才能比用简单直接的库(如scikit-learn)获得更高的投资报答率。







Tensorflow的确做得很好,提供了一种定义和训练神经网络(Neural Network)的简单直观的方法。神经网络是另外一种用来计算线路的算法。神经网络及其同类的深度神经网络(Deep Neural Network)都是便于运用的方法,由于它们可以处理非结构化的数据(如图像,视频等)。我说那些数据是非结构化的是由于最终它们照旧以表格格式输入算法。你不必非常关注数据的准确和纯净程度。非常便于运用!
五、为什么机器学习会如此抢手?

机器学习学起来不再困难了,由于它有很丰富的库。假如你看不出来库的区别,我很喜欢用Scikit-learn. 这有很多缘由:

  • 在用的时分不需求写很多代码;
  • 它可以完成大部分或者一些机器学习的功能,所以我所做的任何关于机器学习的内容都可以不分开这个库;
  • 它很旧,这意味着它的功能成熟,功能成熟代表不需求处理那些费脑的代码错误;
  • 创建者和维护者他们非常敌对地建立了出色的运用阐明;
  • 假如我得听一个关于机器学习的讲座,我更喜欢那些像Olivier Grise的人,带着细微的法国口音,从而添加文娱价值。









我的那些喜欢机器学习的法语爱好者运用scikit-learn可以把一个非常复杂的机器学习模型减少到5行代码。机器学习的编程不需求很多行的代码。也不需求一个天体物理的博士学位甚至一个技术学位的背景去学习机器学习的知识。
下面是一个随机森林(Random forest)的代码例子:
from sklearn.ensemble import RandomForestClassifier #套用随机森林的资源包clf = RandomForestClassifier()#clf是随机森林的分类函数target_variable = 'does-make-more-than-50k'#target_variable是随机森林分类的标准columns = ['age', 'education', 'hours-worked-per-week']#随机森林的节点clf.fit(df[columns], df[target_variable])#构成树

原文标题:
Machine Learning for People Who Don’t Care About Machine Learning —— AI vs. ML explained for the rest of us
原文链接:
https://towardsdatascience.com/machine-learning-for-people-who-dont-care-about-machine-learning-4cf0495dee2c
译者简介





吴慧聪,加拿大戴尔豪斯大学计算机和统计双专业本科毕业生,主攻数据迷信。预备继续攻读数据分析(人工智能方向)的研讨生。对数字极其敏感,擅长做各类的数据模型以及分析,希望在数据迷信的路上越走越远,也乐于看法更多情投意合的冤家。
— 完 —
关注清华-青岛数据迷信研讨院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评16

yeastcn 2020-9-7 08:55:45 显示全部楼层
“用数据去寻觅数据模型”,总结的很好
回复

使用道具 举报

宁莹莹 2020-9-7 09:04:19 显示全部楼层
分享了
回复

使用道具 举报

da陳_儱 2020-9-7 09:07:24 显示全部楼层
分享了
回复

使用道具 举报

铃儿000000 2020-9-7 09:17:07 显示全部楼层
分享了
回复

使用道具 举报

6719969 2020-9-7 09:18:22 显示全部楼层
分享了
回复

使用道具 举报

geocare 2020-9-7 09:25:18 显示全部楼层
分享了
回复

使用道具 举报

lcmopgeh 2020-9-7 09:32:41 显示全部楼层
分享了
回复

使用道具 举报

玥瑩 2020-9-7 09:43:55 显示全部楼层
分享了
回复

使用道具 举报

52013141314 2020-9-7 09:50:51 显示全部楼层
分享了
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies