找回密码
 立即注册
搜索

做一个机器学习项目,需求几步?

web0yan 2018-12-13 08:10:14 显示全部楼层 阅读模式
点击上方关注,All in AI中国
为了加强本人对某一进程的解释而编纂和比较某一特定进程的各种解释的活动是有价值的。我之前曾经对我们可以称之为机器学习过程的其他解释做了这样的事情(并且可以合理地与数据迷信或数据发掘过程严密结合,至少在某种程度上)。



为了进一步完善我们的外部模型,本文将概述AurélienGéron的机器学习项目清单,如他的畅销书《动手学习Scikit-Learn&TensorFlow》所示。它作为一个接近项目的清单呈现,因此感觉不那么规范和更具描画性,提示你应该做什么,而不是你为什么要做什么,这是一种没有判别力的观察。
以下是Géron清单的简要概述,从这篇文章中你可以获得针对初学者和从业者的更多有用信息。
1.处理成绩

第一步是确定目的的地位。Géron在业务术语中指的是目的,但这并非相对必要。了解最终如何运用机器学习系统的处理方案非常重要,此步骤还讨论了针对给定成绩的可比较的场景和当前的变通方法,以及正在思索的假设,以及确定了对人类专业知识的需求程度。在该步骤中需求构建的其他关键技术项包括确定运用哪种类型的机器学习成绩(监督、无监督等)适用,以及采用适当的功能度量。
2.获取数据

此步骤以数据为中心:确定需求多多数据,需求什么类型的数据,从何处获取数据,评价数据采集的法律义务以及获取数据。获得数据后,确保其被适当地匿名化,确保您知道它实践是什么类型的数据(工夫序列、观察、图像等),将数据转换为您需求的数据,并创建训练、验证和测试集合是有保证的。
3.探求数据

清单中的这一步相似于通常称为探求性数据分析(EDA)的步骤。目的是在建模之前尝试从数据中获得见解。回想一下,在第一步中,要确定和探求有关数据的假设;如今是更深化调查这些假设的好机遇。人类专家可以在这一步骤中特别有用,回答关于机器学习从业者能够不分明的相关性的成绩。在这里研讨特征及其值的普通可视化(例如,想象它是多么容易,经过箱形图疾速辨认异常值而不是经过数字查询)。记录您的探求结果以供当前运用是一种很好的做法。
4.预备数据

是时分运用您在上一步中确定为值得的数据转换了。此步骤还包括您将执行的任何数据清算以及特征选择和工程。任何用于值标准化和/或标准化的特征缩放也会在这里发生。
5.对数据建模

是时分对数据停止建模,并将最后的模型集精简为看似最有希望的数据集。 (这相似于Chollet过程中的第一个建模步骤:良好模型→“太好”模型)此类尝试能够触及运用残缺数据集的样本来促进初步模型的训练工夫,模型应该涵盖广泛的类别(树、神经网络、线性等)。应该建立、测量和比较模型,并且应该研讨每个模型的错误类型,以及每个算法运用的最重要的特征。最好的模型应该被列出,然后可以对其停止微调。
6.微调模型

曾经入围的模型如今可以对它们的超参数停止微调,并且应该在此阶段调查集合方法。假如数据集样本已用于先前的建模阶段,则应在此步骤中运用残缺数据集;假如没有接触到一切训练数据或与其他已接触过一切训练数据的模型停止比较的状况下,则不应选择微调模型作为“赢家”。
7.提出处理方案

是时分呈现了,所以希望你的可视化技能(或实施团队成员的技能)达到标准!这是一个技术性较小的步骤,但此时确保系统技术方面的正确记录也很重要。为感兴味的各方回答成绩:感兴味的各方能否了解大局?处理方案能否达到了目的?你有没有传达假设和限制?这基本上是一个销售宣传,所以确保推销是对系统的决计。假如结果不被了解和采用,为什么要做这些工作呢?
8.启动ML系统

让机器学习系统为消费做好预备;它需求插入更广泛的消费系统或战略。作为一个软件处理方案,它将在事行停止单元测试,并应在启动和运转后停止充分监控。在新的或更新的数据上重新训练模型是这个过程的一部分,在这里应该加以思索,即便在后面的步骤中曾经思索过这一点。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

关东名侦探 2018-12-13 14:25:12 显示全部楼层
围观 围观 沙发在哪里!!!
回复

使用道具 举报

li2802087774 2018-12-13 20:26:24 显示全部楼层
有没有什么需要注意的?
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies