智客公社

标题: 企业机器学习 - 为什么构建和训练“真实世界”模型很难 [打印本页]

作者: 懵懂小孩    时间: 2021-6-21 13:45
标题: 企业机器学习 - 为什么构建和训练“真实世界”模型很难
企业机器学习系列
一个平和的指南,在企业中的机器学习项目的生命周期,触及的角色以及建筑模型的应战,普通英语
ketan doshi 9分钟阅读

[attach]633603[/attach]

> Photo by Greg Rakozy on Unsplash

什么是企业ml?

提供给公司提供真实业务价值的机器学习(ML)运用程序需求什么?

一旦完成并证明了ML可以带给公司的大量利益,您如何将该努力扩展到额外用例,并且真正末尾满足ML的承诺?

然后,如何在整个组织中扩展ML,并简化ML的开发和交付过程,以标准化ML倡议,分享和重用工作并疾速迭代?

一些世界抢先的技术公司采用的最佳实际是什么?

[attach]633604[/attach]

> Deliver business value through ML applications in the enterprise (Image by Author)


在一系列文章中,我的目的是探求这些诱人的成绩,了解沿途的应战和学习。
在这第一篇文章中,我们将深化进入构建和训练ML模型的关键步骤,由于这坐在这个过程的核心。

为此,让我们首先设置上下文并获得组织的全体ML旅程的高级概述。
沿ML旅程成熟

让我们说一家公司曾经聚集了丰富的数据,并希望应用机器学习,以便显着提高客户的阅历或以次要方式影响其业务运营。

通常,大多数可以成功应用ML的公司经过各种成熟阶段。

[attach]633605[/attach]


> An organization goes through stages of ML maturity (Image by Author)

但这是一个艰难的道路。许多公司堕入了第一阶段,无法从ML投资中提取有形业务价值。

既然我们曾经谈到了高级的长期旅程,让我们沿着这条途径的单一ML项目减少,看看触及结束的步骤。
ML运用程序生命周期和角色

提供ML运用程序触及多项义务。在过去几年中,许多专门的角色内行业中播种了实行这些义务。

请留意,此区域仍在不断发展,此术语不是标准的。假如您去过一些不同的公司并讯问他们这些义务以及这些角色能够会略有不同的解释。这些角色之间的边界有些模糊。在某些状况下,同一个人能够实行一切这些责任。

但是,其中一些概念末尾结晶。因此,我们照旧有助于获得广泛的过程。

[attach]633606[/attach]

> ML Application Lifecycle (Image by Author)

正如我们刚刚看到的那样,运用程序生命周期的第一阶段是建立和训练ML模型。这往往是项目中最“魅力”,最重要的项目。让我们放大,看看它触及什么。
如何训练与“演示”ML项目不同的“理想世界”ML模型?

互联网上没有资源,教程,在线课程和项目的项目,涵盖为一系列运用程序构建机器学习或深度学习模型的每一个能够的技术方面。但是,其中大多数它们在一个非常受控的“演示”环境中涵盖了建筑ML模型。

这与“理想世界”中遇到的内容有何不同?到目前为止,最大的区别与访问标记的数据集必须有关。演示项目总是从曾经为您预备的细心策划数据集末尾。数据已肃清并系统地标记。成绩是残缺的界限,由于曾经选择了数据集中的字段和范围。

另一方面,在一个真正的项目中,您将从空白板岩末尾。预备您的数据集成为项目最苛刻的方面之一。你必须处理一些棘手的成绩:

其次,在演示项目中,重点往往是挤出模型的最后一滴准确性,或者获得最先进的结果。在许多在线竞争中,79.0345和79.0312之间的度量分数的差异能够意味着排行榜上的数百次。

在一个真实的项目中,花了几周工夫来获得百分之一的公制的改善,能够是不值得的。您的模型的准确性能够只是全体业务结果中的一个要素。疾速提供工作处理方案通常更为重要,具有分明的客户改进,疾速获取反馈和迭代。
模型架构和训练工作流程

让我们说要处理的成绩和商业目的是明白的,你有一个初步假设如何处理它。通常,创建ML模型中有几个步骤,由数据迷信家或数据迷信家团队执行。

[attach]633607[/attach]

> ML Model Workflow (Image by Author)


必须保持细致的笔记,以跟踪每个实验,运用的数据功能和多参数以及获得的度量。这将有助于您前往并确定有出路的模型停止进一步调查,并可以重新运转测试并重现结果。
模型构建应战

建立ML模型是艰难的。这项工作非常研讨和迭代,需求大量的实验实验和错误。

与大多数软件开发项目不同,您知道如何处理手头的成绩,ML项目有很多不确定性和未知数。一末尾,您能够不知道处理方案是什么,无论是可行的还是能够需求多长工夫。估算和规划工夫表触及相当数量的猜测。

通常,ml型号是黑盒子。当模型未能生成所需的结果时,您能够无法确定其失败的缘由。在许多状况下,处理方案是简单地提出另一个假设或尝试不同的东西,并希望它提高功能。
最后,模型预备好了!如今真的末尾努力工作……

经过几周或几个月的工作,您终于处理了成绩,并具有在开发环境中表现良好的模型。

但是,正如我们在下一阶段看到的那样,这只是对目的地的一小部分。更大的应战和圈套是将来的。
模型开发通常在Jupyter笔记本中完成。能够运用CSV或Excel文件中数据集的静态快照训练该模型很能够。培训在开发人员的本地笔记本电脑上运转,或者在云中的VM上运转。

换句话说,该模型的发展是相当独立的,与公司的运用和数据管道隔离。将模型集成并在消费环境中将其部署部署的努力工作即将末尾……
结论

正如我们所看到的那样,企业ML是一个旅程,就像一切旅程一样,它始于第一步,建立ML模型的第一步。在许多方面,这部分都是技术上复杂和令人兴奋的。

但是,这不是这个阶段,但下一个常常驾驭许多项目并阻止他们看到一天的光线。如今我们有一个“模型建设”阶段的感觉,我们预备看看下一篇文章中的“将模型放入消费”阶段。

最后,假如您喜欢本文,您也可以在变压器,音频深度学习和地理定位机器学习中享用我的其他系列。

(本文由闻数起舞翻译自Susan Maina的文章《Enterprise Machine Learning — Why building and training a “real-world” model is hard》,转载请注明出处,原文链接:https://towardsdatascience.com/enterprise-ml-why-building-and-training-a-real-world-model-is-hard-59d09a430fae)
作者: 我是ZHENMI    时间: 2021-6-21 19:06
好帖必须得顶起
作者: z900721    时间: 2021-6-22 18:04
围观 围观 沙发在哪里!!!
作者: 庆典婚礼    时间: 2021-6-23 12:24
我也顶起出售广告位




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4