什么是机器学习？有哪些应用？终于有人讲明白了

林先湛 · 2022-6-12 19:24:15

导读：人工智能的快速发展，带动了相关技术的繁荣。近些年，国内外的科技公司对机器学习人才都有大量需求。怎样入行机器学习？本文带你从0开始学起。

作者：星环科技人工智能平台团队

来源：华章科技

01 机器学习的背景

当提及机器学习时，我们的脑海里一般会浮现出这样一幅画面：

一个拥有类似人类智能的机器人正在像人类一样尝试理解一件事情。

这样的画面让人觉得是遥不可及的科幻世界。但实际上，机器学习与人类的生产生活已经密不可分了。早在20世纪90年代，一个非常成功的机器学习案例已经使数亿人受益：今天为人所熟知的垃圾信息过滤。该案例成功后，出现了诸多效仿者，并且在现代社会已经有十分广泛的应用。

02 机器学习的定义

如果从更精细的角度去描述机器学习，那么首先要给出机器学习历史上两个著名的定义。机器学习(machine learning)一般被定义为一个系统自我改进的过程。从字面意义上说，机器指计算机，学习是这个自我改进的过程。最初机器学习这个名字由Arthur Samuel提出，他给了机器学习一个非正式的定义。

Arthur Samuel的机器学习定义

机器学习是一个这样的领域：计算机在程序员并不对其进行显式编程的情况下进行自我学习的能力。

具体来讲，机器学习是一门针对算法与统计模型的学科，主要是利用计算机系统高效地执行特殊任务，该任务没有显式的指令，而是依靠模型和推断等。

机器学习算法会建立一个关于样本数据的数学模型，这些样本数据通常被称为“训练集”(training data)。这样做的目的是在执行任务时不去进行显式的预测或决策，这同时也表明了机器学习不是一个已确定好的规则和流程。

机器学习算法可以被用于邮件过滤、网络入侵检测以及计算机视觉等。机器学习与利用计算机进行预测的计算数学比较接近。

上面的定义稍有一些佶屈聱牙，但大体上是说：“机器是怎么判断的”这一点不是由人显式定义的，而是计算机自己获得的。这里有一个更加工程化的定义，即Tom M.Mitchell为机器学习领域研究的算法特征提出的一个广为引用且更加正式的定义。

Tom M.Mitchell的机器学习定义

机器学习这门学科所关注的问题是：计算机程序如何随着经验积累自动提高性能；如果针对某类任务T，一个计算机程序的用P衡量的性能可根据经验E来自我完善，那么我们称这个计算机程序在从经验E中学习，针对某类任务T,它的性能可用P来衡量。

《统计学习基础》一书中写道：许多领域都产生了大量的数据，统计学家的工作就是让所有这些数据变得有意义——提取重要的模式和趋势，理解“数据在说什么”。我们称之为从数据中学习。

综上所述，机器学习模仿人类学习的过程，不能对机器置入显式的判断规则，而是由机器在某种任务场景（基于某种经验）和某种评判标准下不断提升自己表现的过程。

举个例子，当你使用电子邮箱时，你的垃圾邮件过滤系统可以预先从带有人为标记的垃圾邮件以及带有人为标记的正常邮件中学习到垃圾邮件到底会有怎样的特征表现。这些用以训练系统的数据集被称为训练集，其中每一个样本被称作训练样本。

在这个案例中，任务T是对新来的邮件打上好或者不好的标签；经验E是上述训练集；而性能P需要被定义，例如你可以用预测的正确比例去定义模型表现的好坏，该指标被称作准确率（accuracy）且广泛应用于机器学习的分类任务中。

03 机器学习的任务类型

如上所述，机器学习要应对很多应用场景，并包含面对各种数据的经验，而机器学习系统也包含不同的类型，所以我们有必要在不同层面上对它们进行较为粗略的区分，这些“不同层面”可以是：

这三个层面并不会互相排斥，相反，一个机器学习任务往往是这三种区分的组合。例如，一个先进的深度学习系统在一个实时数据流上学习如何区分垃圾邮件，这显然是一个基于模型的在线监督学习系统。

根据是否在人类的监督下进行学习这个问题，机器学习任务区分如下：

监督学习：

分类问题

回归问题

半监督学习：

无监督学习：

强化学习：

主动学习：

元学习：

相应地，根据是否在实时数据流上学习这个问题，机器学习任务区分如下：

离线学习：

在线学习：

在是否对比旧数据点上，机器学习任务区分如下:

基于样本的学习

基于模型的学习

04 构建机器学习应用的步骤

机器学习有很多任务场景，为了简要说明机器学习的大体应用方法与步骤，这里以较为常见的手写识别任务为例。

根据Tom M.Mitchell对机器学习的定义，手写识别任务的T、P、E分别为：

任务T：

性能P：

训练经验E：

首先介绍一系列关键概念。

特征：

标签：

数据切分：

交叉验证与网格调参：

模型评价：

那么对于一个手写识别任务来说，机器学习的应用步骤如下所述：

数据预处理：

数据切分：

选择模型(一组泛函)：

选择目标函数：

根据目标函数选择相应的优化方法：

根据评价函数计算性能，并优化模型参数：

了解模型性能：

最终获得模型

这里提供了一张Checklist（检查表）。

关于作者：星环科技人工智能平台团队由五十多位优秀的研发工程师和算法工程师组成，逾八成具有国内外名校硕士及以上学历。其中研发子团队的工作重心为一站式人工智能建模平台Sophon；算法子团队则负责基础算法的研发及改进，并在数据挖掘、传统机器学习、计算机视觉、自然语言处理、知识图谱等领域进行前瞻性研究以及项目实施落地。

本文摘编自《机器学习实战：基于Sophon平台的机器学习理论与实践》，经出版方授权发布。

延伸阅读《机器学习实战》

推荐语：星环科技人工智能平台团队实战总结，机器学习的实战书籍，既能了解人工智能相关的算法原理，也能结合可落地的具体应用场景进行实战。

hhzqiang · 2022-6-13 07:01:00

还有没有详细介绍？

足尖上的幸福 · 2022-6-15 19:04:57

珍爱生命，果断回帖。

		自动登录	找回密码
密码			立即注册

什么是机器学习？有哪些应用？终于有人讲明白了

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们