智客公社

标题: 什么是机器学习?有哪些应用?终于有人讲明白了 [打印本页]

作者: 林先湛    时间: 2022-6-12 19:24
标题: 什么是机器学习?有哪些应用?终于有人讲明白了

导读:人工智能的快速发展,带动了相关技术的繁荣。近些年,国内外的科技公司对机器学习人才都有大量需求。怎样入行机器学习?本文带你从0开始学起。

作者:星环科技人工智能平台团队

来源:华章科技

[attach]731979[/attach]

01 机器学习的背景

当提及机器学习时,我们的脑海里一般会浮现出这样一幅画面:

一个拥有类似人类智能的机器人正在像人类一样尝试理解一件事情。

这样的画面让人觉得是遥不可及的科幻世界。但实际上,机器学习与人类的生产生活已经密不可分了。早在20世纪90年代,一个非常成功的机器学习案例已经使数亿人受益:今天为人所熟知的垃圾信息过滤。该案例成功后,出现了诸多效仿者,并且在现代社会已经有十分广泛的应用。

[attach]731980[/attach]

02 机器学习的定义

如果从更精细的角度去描述机器学习,那么首先要给出机器学习历史上两个著名的定义。机器学习(machine learning)一般被定义为一个系统自我改进的过程。从字面意义上说,机器指计算机,学习是这个自我改进的过程。最初机器学习这个名字由Arthur Samuel提出,他给了机器学习一个非正式的定义。

机器学习是一个这样的领域:计算机在程序员并不对其进行显式编程的情况下进行自我学习的能力。

具体来讲,机器学习是一门针对算法与统计模型的学科,主要是利用计算机系统高效地执行特殊任务,该任务没有显式的指令,而是依靠模型和推断等。

机器学习算法会建立一个关于样本数据的数学模型,这些样本数据通常被称为“训练集”(training data)。这样做的目的是在执行任务时不去进行显式的预测或决策,这同时也表明了机器学习不是一个已确定好的规则和流程。

机器学习算法可以被用于邮件过滤、网络入侵检测以及计算机视觉等。机器学习与利用计算机进行预测的计算数学比较接近。

[attach]731981[/attach]

上面的定义稍有一些佶屈聱牙,但大体上是说:“机器是怎么判断的”这一点不是由人显式定义的,而是计算机自己获得的。这里有一个更加工程化的定义,即Tom M.Mitchell为机器学习领域研究的算法特征提出的一个广为引用且更加正式的定义。

机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能;如果针对某类任务T,一个计算机程序的用P衡量的性能可根据经验E来自我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能可用P来衡量。

《统计学习基础》一书中写道:许多领域都产生了大量的数据,统计学家的工作就是让所有这些数据变得有意义——提取重要的模式和趋势,理解“数据在说什么”。我们称之为从数据中学习

综上所述,机器学习模仿人类学习的过程,不能对机器置入显式的判断规则,而是由机器在某种任务场景(基于某种经验)和某种评判标准下不断提升自己表现的过程。

举个例子,当你使用电子邮箱时,你的垃圾邮件过滤系统可以预先从带有人为标记的垃圾邮件以及带有人为标记的正常邮件中学习到垃圾邮件到底会有怎样的特征表现。这些用以训练系统的数据集被称为训练集,其中每一个样本被称作训练样本

在这个案例中,任务T是对新来的邮件打上好或者不好的标签;经验E是上述训练集;而性能P需要被定义,例如你可以用预测的正确比例去定义模型表现的好坏,该指标被称作准确率(accuracy)且广泛应用于机器学习的分类任务中。

[attach]731982[/attach]

03 机器学习的任务类型

如上所述,机器学习要应对很多应用场景,并包含面对各种数据的经验,而机器学习系统也包含不同的类型,所以我们有必要在不同层面上对它们进行较为粗略的区分,这些“不同层面”可以是:

这三个层面并不会互相排斥,相反,一个机器学习任务往往是这三种区分的组合。例如,一个先进的深度学习系统在一个实时数据流上学习如何区分垃圾邮件,这显然是一个基于模型的在线监督学习系统。

根据是否在人类的监督下进行学习这个问题,机器学习任务区分如下:

相应地,根据是否在实时数据流上学习这个问题,机器学习任务区分如下:

是否对比旧数据点上,机器学习任务区分如下:

[attach]731983[/attach]

04 构建机器学习应用的步骤

机器学习有很多任务场景,为了简要说明机器学习的大体应用方法与步骤,这里以较为常见的手写识别任务为例。

根据Tom M.Mitchell对机器学习的定义,手写识别任务的T、P、E分别为:

首先介绍一系列关键概念。

[attach]731984[/attach]

那么对于一个手写识别任务来说,机器学习的应用步骤如下所述:

这里提供了一张Checklist(检查表)。

关于作者:星环科技人工智能平台团队由五十多位优秀的研发工程师和算法工程师组成,逾八成具有国内外名校硕士及以上学历。其中研发子团队的工作重心为一站式人工智能建模平台Sophon;算法子团队则负责基础算法的研发及改进,并在数据挖掘、传统机器学习、计算机视觉、自然语言处理、知识图谱等领域进行前瞻性研究以及项目实施落地。

本文摘编自《机器学习实战:基于Sophon平台的机器学习理论与实践》,经出版方授权发布。

[attach]731985[/attach]

延伸阅读《机器学习实战》

推荐语:星环科技人工智能平台团队实战总结,机器学习的实战书籍,既能了解人工智能相关的算法原理,也能结合可落地的具体应用场景进行实战。
作者: hhzqiang    时间: 2022-6-13 07:01
还有没有详细介绍?
作者: 足尖上的幸福    时间: 2022-6-15 19:04
珍爱生命,果断回帖。




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4