什么是机器学习，为什么我们需要机器学习

cuike0728 · 2024-4-29 13:58:58

机器学习是一个大约在1960年创造的术语，由两个词组成：机器：与计算机，机器人或其他设备相对应，以及学习人类擅长的活动或事件模式。

那么为什么我们需要机器学习，为什么我们希望机器学习人类擅长的活动或事件模式呢？事实上我们生活中有很多问题涉及庞大的数据集或复杂的计算，这个时候让计算机来完成这样的工作就很棒。而且，通常来说，计算机和机器人不会累，也不必睡觉，而且可能更便宜。还有一种新兴的思想流派，称为主动学习或人为循环，它主张将机器学习者和人类的努力结合起来。这个想法是，有一些日常的无聊任务更适合计算机，而有创造力的任务更适合人类。这一理念告诉我们，机器和人是能配合完成任务的。

机器学习不涉及传统编程。传统的编程中我们追求的是程序需要涵盖了机器与人交互的所有可能情况。那你可能要问为什么我们不许多软件程序员并继续编写新规则呢？

原因之一是，随着时间的流逝，定义，维护和更新规则变得越来越昂贵。活动或事件的可能模式数量可能很多，因此用尽所有枚举实际上并不可行。当涉及到动态，不断变化或实时变化的事件时，这样做更具挑战性。开发学习规则或算法来命令计算机学习和提取模式，并从大量数据中弄清楚事物，这将变得更加容易和高效。

另一个原因是数据量呈指数增长。如今，文本，音频，图像和视频数据泛滥成灾。在物联网时代万物互联，我们与日常设备互动的数据绝对是天量级别的。比如物联网带来的家用电器和自动驾驶汽车的数据。除了数量之外，由于存储价格便宜，过去几年中可用数据的质量一直在提高。这些推动了机器学习算法和数据驱动解决方案的发展。

马云（Jack Ma）在一次演讲中解释说，信息技术（IT）是过去20年的重点，现在，在接下来的30年里，我们将进入数据技术（DT）时代。在IT时代，借助计算机软件和基础架构，公司变得越来越大，越来越强大。既然大多数行业的企业已经收集了大量数据，那么现在正是利用数据技术来发掘洞察力，获取模式并促进新业务增长的合适时机。广义上讲，机器学习技术使企业可以更好地了解客户行为并与客户互动，还可以优化运营管理。对于我们个人而言，机器学习技术已经使我们的生活每天都在改善。

我们都熟悉的机器学习应用是垃圾邮件过滤。另一个是在线广告，即根据广告商收集的有关我们的信息自动投放广告。还有一个机器学习应用是搜索引擎。搜索引擎涉及信息检索（解析我们要查找的内容并查询相关记录），以及上下文排名和个性化排名，这些主题按主题相关性和用户喜好对页面进行排序都涉及到机器学习。

在1997年，深蓝超级计算机击败了世界象棋冠军。2005年，一辆斯坦福自动驾驶汽车在沙漠中自行行驶了130多公里。在2007年，另一支车队的汽车行驶了50多公里。2011年，Watson计算机赢得了针对人类对手的测验。2016年，AlphaGo计划击败了世界上最好的围棋选手之一。

在现在，在将来机器学习大有可为！

机器学习的高级概述

模仿人类智能的机器学习是人工智能的一个子领域，这属于创建系统有关的计算机科学领域。机器学习还与线性代数，概率论，统计和数学优化密切相关。我们通常基于统计，概率论和线性代数建立机器学习模型，然后使用数学优化来优化模型。

机器学习系统需要接收输入数据，可以是数字，文本，视觉或视听。系统通常具有输出-这可以是浮点数，例如自动驾驶汽车的加速度，可以是代表类别（也称为class）的整数，例如图像中的猫或老虎的类别。

机器学习的主要任务是探索和构建可从历史数据中学习并根据新输入数据做出预测的算法。对于数据驱动的解决方案，我们需要定义一个评估函数，称为损失或成本函数，来评估模型的学习情况。

根据学习数据的性质，机器学习任务可以大致分为三类：
无监督学习：当学习数据仅包含指示性信号而没有附加任何描述（也叫标签或标记）时，全靠我们自己发现隐藏的信息或确定如何描述数据。这种学习数据称为未标记数据。无监督学习可用于检测异常情况，例如欺诈或有缺陷的设备，或将具有类似在线行为的客户分组以进行营销活动。有监督的学习：当学习数据带有指示性信号，描述，目标或期望的输出时，学习目标就变成了寻找将输入映射到输出的通用规则。这种学习数据称为标记数据。然后，我们会将学习到的规则用于标记具有未知输出的新数据。这个标签通常由事件记录系统和专家提供。此外，如果可行，它们也可以由公众通过众包等方式制作。监督学习通常用于日常应用中，例如面部和语音识别，产品或电影推荐以及销售预测。我们可以将监督学习进一步细分为回归和分类。回归训练并预测连续值的响应，例如预测房价，而分类则尝试找到合适的类别标签，例如分析积极/消极情绪和预测贷款违约。如果不是所有学习样本都被标记，只有一些被标记，就是半监督学习。除了少量标记外，它还利用未标记的数据（通常为大量）进行训练。半监督学习适用于以下情况：获取完全标记的数据集比较昂贵，而标记一小部分子集则更实用更容易。例如，通常我们获取未标记的遥感图像数据相对容易，然后我们需要熟练的专家来标记高光谱遥感图像，并进行大量的现场实验以发现油气资源。强化学习：学习数据提供反馈，以便系统适应动态条件以实现特定目标。系统根据反馈响应评估其性能，并做出相应的反应。最著名的例子包括自动驾驶汽车和国际象棋大师AlphaGo。
是不是有点弄不太明白，有点被抽象概念弄糊涂了？没关系，我自己也是小白。之后的文章中我将努力给大家用具体的例子解释机器学习，比如，垃圾邮件检测与朴素贝叶斯、通过与Logistic回归预测，股票价格预测与回归算法等等。

还是要加一句：发表这些东西的主要目的就是督促自己，希望大家关注评论指出不足，一起进步。内容我都会写的很细，并且按照文章中的代码自己也可以做出一样的结果，一个目的就是零基础也能懂，因为自己就是什么基础没有从零学Python的。

寂寞拔条子 · 2024-4-29 19:42:08

向楼主学习

mlydj · 2024-5-2 13:23:27

站位支持

		自动登录	找回密码
密码			立即注册

什么是机器学习，为什么我们需要机器学习

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们