找回密码
 立即注册
搜索

机器学习的7个步骤

#技术派的书架#


机器学习是技术爱好者中高度关注的范畴。作为人工智能(AI)的一个分支,它基本上是一种算法或模型,可以经过“学习”来改善本身,因此变得越来越知晓执行其义务。机器学习的运用正在迅速发展,已迅速成为医学,电子商务,银行等不同范畴不可或缺的一部分。明天,我们将把机器学习分解为一个过程,并了解从末尾到完成的一切步骤。它的实践运用。


机器学习的过程将在下面列出的7个步骤中停止细分。为了阐明每个步骤的重要性和功能,我们将运用一个简单模型的示例。该模型将担任区分苹果和橙子。机器学习可以胜任复杂义务。但是,为了以简单的方式解释该过程,以一个基本的例子来解释相关的概念。
步骤1:搜集数据

为了开发我们的机器学习模型,我们的第一步将是搜集可用于区分这两种成果的相关数据。可以运用不同的参数将水果分类为橙色或苹果。为简单起见,我们仅采用模型要应用的2个功能来执行其操作。第一个特征是水果本身的颜色,第二个特征是水果的外形。运用这些功能,我们希望我们的模型可以准确地区分两种水果。
颜色
外形
苹果还是橘子?
红色的
圆锥形
苹果
橙子
圆形的
橙子

需求一种机制来搜集我们选择的两个功能的数据。例如,为了搜集有关颜色的数据,我们可以运用光谱仪,对于外形数据,我们可以运用水果的图片,以便可以将它们视为2D图形。为了搜集数据,我们将尝试获取尽能够多的不同类型的苹果和橙子,以便为我们的功能创建各种数据集。为此,我们能够会尝试在市场上寻觅能够来自世界不同地区的橙子和苹果。
搜集数据的步骤是机器学习过程的基础。选择错误的功能或专注于数据集的有限类型条目等错误能够会使模型完全失效。这就是为什么当搜集数据时必须思索必要的缘由的缘由,由于在此阶段所犯的错误只会随着我们停止到后续阶段而扩展。
步骤2:预备该数据

一旦我们搜集了这两个功能的数据,下一步就是预备数据以供进一步运用。此阶段的重点是辨认并最小化我们针对这两个功能的数据集中的任何潜在偏向。首先,我们将随机化这两个水果的数据顺序。这是由于我们不希望订单与模型的选择有任何关系。此外,我们将检查我们的数据集能否倾向某个特定水果。这又将有助于辨认和纠正潜在的成见,由于这将意味着该模型将可以正确地辨认一种水果,但能够会与另一种水果抗争。
数据预备的另一个次要组成部分是将数据集分为两部分。较大的部分(约80%)将用于训练模型,而较小的部分(约20%)用于评价。这很重要,由于在培训和评价中运用相反的数据集将无法公平评价模型在实践场景中的功能。除了拆分数据外,还需求采取其他措施来完善数据集。这能够包括删除反复的条目,丢弃不正确的读数等。
为模型预备充分的数据可以提高其效率。它可以协助减少模型的盲点,从而提高预测的准确性。因此,有意义的是审议和检查你们的数据集,以便可以对其停止微调以产生更好和有意义的结果。
步骤3:选择模型

一旦完成了以数据为中心的步骤,选择模型类型就是我们的下一个举动方案。由数据迷信家开发的各种现有模型可以用于不同的目的。这些模型在设计时思索了不同的目的。例如,某些模型更合适处理文本,而另一种模型能够更合适处理图像。关于我们的模型,简单的线性回归模型适用于区分水果。在这种状况下,水果的类型将是我们的因变量,而水果的颜色和水果的外形将是两个预测变量或自变量。


在我们的示例中,模型选择非常简单。在更复杂的状况下,我们需求做出与预期结果相婚配的选择。可以在3大类中探求机器学习模型的选项。第一类是监督学习模型。在这样的模型中,结果是已知的,因此我们不断改进模型本身,直到我们的输入达到所需的精度程度。为我们的水果模型选择的线性回归模型是监督学习的一个例子。假如结果未知,我们需求分类,则运用第二类,即无监督学习。无监督学习的示例包括K-means和Apriori算法。第三类是强化学习。它着重于学习在反复实验的基础上做出更好的决策。它们通常在商业环境中运用。马尔可夫的决策过程就是一个例子。
步骤4:培训

机器学习过程的核心是模型的训练。大量的“学习”在此阶段完成。在这里,我们运用分配给训练的数据集的一部分来教我们的模型来区分这两种成果。假如我们用数学术语查看模型,则输入(即我们的2个要素)将具有系数。这些系数称为特征权重。也将触及一个常数或y截距。这称为模型的偏向。确定其值的过程是反复实验的。最后,我们为它们选择随机值并提供输入。将获得的输入与实践输入停止比较,并经过尝试不同的权重和偏向值将差异最小化。
培训需求耐烦和实验。知道将在其中实施模型的范畴的知识也很有用。例如,假如将机器学习模型用于辨认保险公司的高风险客户,则由于可以在迭代过程中停止更多有根据的猜测,因此有关保险行业运作方式的知识将加快培训过程。假如该模型末尾成功地发挥作用,那么培训将证明是非常有益的。这相当于孩子学习骑自行车的工夫。最后,他们能够会摔倒多次,但过了一会儿,他们会更好地掌握过程,并可以在骑自行车时对不同状况做出更好的反应。
步骤5:评价

在训练好模型之后,需求对其停止测试,以查看其在理想环境中能否正常运转。这就是为什么将用于评价而创建的数据集的一部分用于检查模型的纯熟程度的缘由。这会将模型置于一个场景中,在该场景中遇到的状况并非其训练的一部分。在我们的案例中,这能够意味着尝试确定该模型中全新的苹果或橙子的类型。但是,经过训练,该模型应具有足够的才能来推断信息并确定该水果是苹果还是橙子。
在商业运用中,评价变得非常重要。评价使数据迷信家可以检查他们能否设定了要完成的目的。假如结果不令人称心,则需求重新检查先前的步骤,以便找出并找出模型功能不佳的根本缘由。假如评价未正确完成,则该模型能够无法出色地完成其所需的商业目的。这能够意味着设计和销售模型的公司能够会得到与客户的良好信誉。这也能够会损害公司的声誉,由于在信任公司关于机器学习模型的敏锐度时,将来的客户能够会优柔寡断。因此,评价模型对于避免上述不良影响至关重要。
步骤6:超参数调整

假如评价成功,则进入超参数调整步骤。此步骤试图改善在评价步骤中获得的积极结果。对于我们的示例,我们将看看能否可以使我们的模型在辨认苹果和橙子方面愈加出色。我们可以采用不同的方法来改进模型。其中之一是重新训练步骤,并运用训练数据集的多次扫描来训练模型。这能够会导致更高的准确性,由于训练的持续工夫越长,暴露越多,并改善了模型的质量。处理该成绩的另一种方法是优化提供给模型的初始值。随机初始值通常会因反复实验逐渐完善而产生较差的结果。但是,假如我们可以提出更好的初始值,或者运用分布而不是值来启动模型,那么我们的结果能够会更好。我们还可以运用其他参数来完善模型,但是该过程比逻辑过程更直观,因此没有确定的方法。
自然地,出现一个成绩,当模型完成其目的时,为什么我们首先需求停止超参数调整?这可以经过查看基于机器学习的服务提供商的竞争性质来回答。客户寻求机器学习模型来处理各自的成绩时,可以从多个选项中停止选择。但是,它们更有能够被产生最准确结果的方法所吸引。这就是为什么要确保机器学习模型的商业成功,超参数调整是必不可少的步骤。
步骤7:预测

机器学习过程的最后一步是预测。在此阶段,我们以为模型已预备就绪,可以用于实践运用。我们的水果模型如今应该可以回答给定的水果是苹果还是橙子的成绩。该模型不受人为干扰,并根据其数据集和训练得出本人的结论。该模型所面临的应战照旧是在不同的相关场景下其功能能否能胜过或至少与人类判别相婚配。
预测步骤是最终用户在各自行业中运用机器学习模型时看到的内容。这一步凸显了为什么许多人以为机器学习是各个行业的将来。复杂但执行良好的机器学习模型可以改善其各自一切者的决策过程。做出决议时,人类只能处理一定数量的数据和相关要素。另一方面,机器学习模型可以处理和链接大量数据。这些链接使模型可以获得独特的见解,假如采用通常的手动方法,则能够无法发现这些见解。结果,宝贵的人力资源从处理信息然后做出决议的负担中解放出来。
结论

借助机器学习,我们可以确定如何区分苹果和橘子,虽然听起来能够并不令人印象深入,但是对于大多数机器学习模型而言,我们采取的步骤都是相反的。随着机器学习的发展和AI的普遍发展,该标准将来能够会改变,但是下次需求停止ML项目时,请记住这些标准:

  • 搜集数据
  • 预备该数据
  • 选择模型
  • 训练
  • 评价
  • 超参数调整
  • 预言

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

只爱啊昆 2021-6-21 12:56:10 显示全部楼层
撸过
回复

使用道具 举报

lovage殁 2021-6-22 12:16:35 显示全部楼层
看起来不错
回复

使用道具 举报

残缺的汤圆 2021-6-22 22:37:59 显示全部楼层
打酱油的人拉,回复下赚取积分
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies