找回密码
 立即注册
搜索

企业机器学习 - 为什么构建和训练“真实世界”模型很难

企业机器学习系列
一个平和的指南,在企业中的机器学习项目的生命周期,触及的角色以及建筑模型的应战,普通英语
ketan doshi 9分钟阅读


> Photo by Greg Rakozy on Unsplash

什么是企业ml?

提供给公司提供真实业务价值的机器学习(ML)运用程序需求什么?

一旦完成并证明了ML可以带给公司的大量利益,您如何将该努力扩展到额外用例,并且真正末尾满足ML的承诺?

然后,如何在整个组织中扩展ML,并简化ML的开发和交付过程,以标准化ML倡议,分享和重用工作并疾速迭代?

一些世界抢先的技术公司采用的最佳实际是什么?


> Deliver business value through ML applications in the enterprise (Image by Author)


在一系列文章中,我的目的是探求这些诱人的成绩,了解沿途的应战和学习。
    一人如何在“理想世界”中训练ML模型,以及如何与在实验室中建立ML原型的不同程度?您如何将该型号拍摄消费并将其保持在月份在月份的最佳功能下运转?在这一趋向的最前沿,公司曾经建立了哪些基础设备,系统架构和工具?如何构建数据流水线,以从公司搜集的大量数据中提取价值,并为您的ML和Analytics运用案例提供可用?
在这第一篇文章中,我们将深化进入构建和训练ML模型的关键步骤,由于这坐在这个过程的核心。

为此,让我们首先设置上下文并获得组织的全体ML旅程的高级概述。
沿ML旅程成熟

让我们说一家公司曾经聚集了丰富的数据,并希望应用机器学习,以便显着提高客户的阅历或以次要方式影响其业务运营。

通常,大多数可以成功应用ML的公司经过各种成熟阶段。



> An organization goes through stages of ML maturity (Image by Author)
    末尾 - 确定成绩并定义业务目的。启动研发活动以开发ML模型。飞行员 - 第一个培训的模型。在消费中预备好的运用。早期 - 消费一年或两大的消费模型。中间阶段 - 多个部门各种业务场景的消费中的几种模型。高级 - 矫捷ML运用程序开发,标准化工具和疾速实验和交付的流程。

但这是一个艰难的道路。许多公司堕入了第一阶段,无法从ML投资中提取有形业务价值。

既然我们曾经谈到了高级的长期旅程,让我们沿着这条途径的单一ML项目减少,看看触及结束的步骤。
ML运用程序生命周期和角色

提供ML运用程序触及多项义务。在过去几年中,许多专门的角色内行业中播种了实行这些义务。

请留意,此区域仍在不断发展,此术语不是标准的。假如您去过一些不同的公司并讯问他们这些义务以及这些角色能够会略有不同的解释。这些角色之间的边界有些模糊。在某些状况下,同一个人能够实行一切这些责任。

但是,其中一些概念末尾结晶。因此,我们照旧有助于获得广泛的过程。


> ML Application Lifecycle (Image by Author)


  • 该过程从数据迷信家构建和训练模型,通常运用训练数据的快照。
  • 然后,数据工程师设置数据流水线以获取来自公司的分析商店的训练数据。管道也可以从操作系统源填充分析存储。
  • 然后,训练的模型必须与最终用户运用的业务运用程序集成。它获取模型耗费以使其预测的输入数据。然后将预测结果呈现回最终用户。这是由运用程序开发人员或产品工程师完成的。ML工程师将ML运用部署到消费中。最后,ML OPS担任将运用程序保持在消费中运转并监控其功能。
正如我们刚刚看到的那样,运用程序生命周期的第一阶段是建立和训练ML模型。这往往是项目中最“魅力”,最重要的项目。让我们放大,看看它触及什么。
如何训练与“演示”ML项目不同的“理想世界”ML模型?

互联网上没有资源,教程,在线课程和项目的项目,涵盖为一系列运用程序构建机器学习或深度学习模型的每一个能够的技术方面。但是,其中大多数它们在一个非常受控的“演示”环境中涵盖了建筑ML模型。

这与“理想世界”中遇到的内容有何不同?到目前为止,最大的区别与访问标记的数据集必须有关。演示项目总是从曾经为您预备的细心策划数据集末尾。数据已肃清并系统地标记。成绩是残缺的界限,由于曾经选择了数据集中的字段和范围。

另一方面,在一个真正的项目中,您将从空白板岩末尾。预备您的数据集成为项目最苛刻的方面之一。你必须处理一些棘手的成绩:
    有哪些数据来源?我们如何查询和提取数据?它们包含哪些字段?我们将运用哪些数据功能?我们如何获得标签?数据能否正确格式化?能否有短少值或渣滓值?我们应该运用哪些数据切片/段?我需求多少训练数据?如何加强我的数据?

其次,在演示项目中,重点往往是挤出模型的最后一滴准确性,或者获得最先进的结果。在许多在线竞争中,79.0345和79.0312之间的度量分数的差异能够意味着排行榜上的数百次。

在一个真实的项目中,花了几周工夫来获得百分之一的公制的改善,能够是不值得的。您的模型的准确性能够只是全体业务结果中的一个要素。疾速提供工作处理方案通常更为重要,具有分明的客户改进,疾速获取反馈和迭代。
模型架构和训练工作流程

让我们说要处理的成绩和商业目的是明白的,你有一个初步假设如何处理它。通常,创建ML模型中有几个步骤,由数据迷信家或数据迷信家团队执行。


> ML Model Workflow (Image by Author)

    数据发现:您能够首先阅读数据源以发现要运用的数据集。重要的是,您还需求确定将用作目的标签的数据。数据清洁:数据能够混乱,需求验证和清洁。能够会丢失或有效的值,异常值,反复等。某些字段能够具有无用的值,例如。像“Churl缘由”这样的范畴有很多值,简单地说“未知”。某些值能够无法正确格式化,例如。数字,日期。假如您正在处理图像,您能够有模糊的图片,不同尺寸和分辨率的图像,照明不足或从奇数角度拍摄的照片。探求性数据分析(EDA):查看数据分布以辨认字段之间的形式和关系。您能够会将季节性趋向或将数据切入相关段等。
  • 特征工程:经过富集某些字段,执行聚合或汇总或经过组合多个字段来执行计算来派生新特征。例如,您能够会运用日期字段来提取自月初或年终以来的天数,或者能否是假期。
  • 特征选择:辨认对预测结果的模型最有用的特征。删除为模型添加不值的特征。型号选择:您能够会尝试几种不同的机器学习算法或深度学习架构,找到具有最佳功能的人。
  • 超参数调整:对于每个模型,有几个超参数值要优化,例如。神经网络中的每层的隐藏层数和大小的数量。
  • 模型训练:选择模型,选择一些数据功能,尝试一些超参数并训练模型。模型评价:以验证数据集测试模型。跟踪并比较每个模型的目的。推论:在已辨认有希望的潜在模型(以及特征和超参数)之后,构建逻辑以使预测对看不见的数据停止预测。反复,反复并再次反复:改变一些东西,尝试一个不同的想法,并继续做到这一点,直到你找到适用的东西。

必须保持细致的笔记,以跟踪每个实验,运用的数据功能和多参数以及获得的度量。这将有助于您前往并确定有出路的模型停止进一步调查,并可以重新运转测试并重现结果。
模型构建应战

建立ML模型是艰难的。这项工作非常研讨和迭代,需求大量的实验实验和错误。

与大多数软件开发项目不同,您知道如何处理手头的成绩,ML项目有很多不确定性和未知数。一末尾,您能够不知道处理方案是什么,无论是可行的还是能够需求多长工夫。估算和规划工夫表触及相当数量的猜测。

通常,ml型号是黑盒子。当模型未能生成所需的结果时,您能够无法确定其失败的缘由。在许多状况下,处理方案是简单地提出另一个假设或尝试不同的东西,并希望它提高功能。
最后,模型预备好了!如今真的末尾努力工作……

经过几周或几个月的工作,您终于处理了成绩,并具有在开发环境中表现良好的模型。

但是,正如我们在下一阶段看到的那样,这只是对目的地的一小部分。更大的应战和圈套是将来的。
模型开发通常在Jupyter笔记本中完成。能够运用CSV或Excel文件中数据集的静态快照训练该模型很能够。培训在开发人员的本地笔记本电脑上运转,或者在云中的VM上运转。

换句话说,该模型的发展是相当独立的,与公司的运用和数据管道隔离。将模型集成并在消费环境中将其部署部署的努力工作即将末尾……
结论

正如我们所看到的那样,企业ML是一个旅程,就像一切旅程一样,它始于第一步,建立ML模型的第一步。在许多方面,这部分都是技术上复杂和令人兴奋的。

但是,这不是这个阶段,但下一个常常驾驭许多项目并阻止他们看到一天的光线。如今我们有一个“模型建设”阶段的感觉,我们预备看看下一篇文章中的“将模型放入消费”阶段。

最后,假如您喜欢本文,您也可以在变压器,音频深度学习和地理定位机器学习中享用我的其他系列。

(本文由闻数起舞翻译自Susan Maina的文章《Enterprise Machine Learning — Why building and training a “real-world” model is hard》,转载请注明出处,原文链接:https://towardsdatascience.com/enterprise-ml-why-building-and-training-a-real-world-model-is-hard-59d09a430fae)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

我是ZHENMI 2021-6-21 19:06:49 显示全部楼层
好帖必须得顶起
回复

使用道具 举报

z900721 2021-6-22 18:04:12 显示全部楼层
围观 围观 沙发在哪里!!!
回复

使用道具 举报

庆典婚礼 2021-6-23 12:24:51 来自手机 显示全部楼层
我也顶起出售广告位
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies