门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
机器学习
›
做一个机器学习项目,需求几步?
返回列表
做一个机器学习项目,需求几步?
[复制链接]
web0yan
2018-12-13 08:10:14
显示全部楼层
|
阅读模式
点击上方关注,All in AI中国
为了加强本人对某一进程的解释而编纂和比较某一特定进程的各种解释的活动是有价值的。我之前曾经对我们可以称之为机器学习过程的其他解释做了这样的事情(并且可以合理地与数据迷信或数据发掘过程严密结合,至少在某种程度上)。
为了进一步完善我们的外部模型,本文将概述AurélienGéron的机器学习项目清单,如他的畅销书《动手学习Scikit-Learn&TensorFlow》所示。它作为一个接近项目的清单呈现,因此感觉不那么规范和更具描画性,提示你应该做什么,而不是你为什么要做什么,这是一种没有判别力的观察。
以下是Géron清单的简要概述,从这篇文章中你可以获得针对初学者和从业者的更多有用信息。
1.处理成绩
第一步是确定目的的地位。Géron在业务术语中指的是目的,但这并非相对必要。了解最终如何运用机器学习系统的处理方案非常重要,此步骤还讨论了针对给定成绩的可比较的场景和当前的变通方法,以及正在思索的假设,以及确定了对人类专业知识的需求程度。在该步骤中需求构建的其他关键技术项包括确定运用哪种类型的机器学习成绩(监督、无监督等)适用,以及采用适当的功能度量。
2.获取数据
此步骤以数据为中心:确定需求多多数据,需求什么类型的数据,从何处获取数据,评价数据采集的法律义务以及获取数据。获得数据后,确保其被适当地匿名化,确保您知道它实践是什么类型的数据(工夫序列、观察、图像等),将数据转换为您需求的数据,并创建训练、验证和测试集合是有保证的。
3.探求数据
清单中的这一步相似于通常称为探求性数据分析(EDA)的步骤。目的是在建模之前尝试从数据中获得见解。回想一下,在第一步中,要确定和探求有关数据的假设;如今是更深化调查这些假设的好机遇。人类专家可以在这一步骤中特别有用,回答关于机器学习从业者能够不分明的相关性的成绩。在这里研讨特征及其值的普通可视化(例如,想象它是多么容易,经过箱形图疾速辨认异常值而不是经过数字查询)。记录您的探求结果以供当前运用是一种很好的做法。
4.预备数据
是时分运用您在上一步中确定为值得的数据转换了。此步骤还包括您将执行的任何数据清算以及特征选择和工程。任何用于值标准化和/或标准化的特征缩放也会在这里发生。
5.对数据建模
是时分对数据停止建模,并将最后的模型集精简为看似最有希望的数据集。 (这相似于Chollet过程中的第一个建模步骤:良好模型→“太好”模型)此类尝试能够触及运用残缺数据集的样本来促进初步模型的训练工夫,模型应该涵盖广泛的类别(树、神经网络、线性等)。应该建立、测量和比较模型,并且应该研讨每个模型的错误类型,以及每个算法运用的最重要的特征。最好的模型应该被列出,然后可以对其停止微调。
6.微调模型
曾经入围的模型如今可以对它们的超参数停止微调,并且应该在此阶段调查集合方法。假如数据集样本已用于先前的建模阶段,则应在此步骤中运用残缺数据集;假如没有接触到一切训练数据或与其他已接触过一切训练数据的模型停止比较的状况下,则不应选择微调模型作为“赢家”。
7.提出处理方案
是时分呈现了,所以希望你的可视化技能(或实施团队成员的技能)达到标准!这是一个技术性较小的步骤,但此时确保系统技术方面的正确记录也很重要。为感兴味的各方回答成绩:感兴味的各方能否了解大局?处理方案能否达到了目的?你有没有传达假设和限制?这基本上是一个销售宣传,所以确保推销是对系统的决计。假如结果不被了解和采用,为什么要做这些工作呢?
8.启动ML系统
让机器学习系统为消费做好预备;它需求插入更广泛的消费系统或战略。作为一个软件处理方案,它将在事行停止单元测试,并应在启动和运转后停止充分监控。在新的或更新的数据上重新训练模型是这个过程的一部分,在这里应该加以思索,即便在后面的步骤中曾经思索过这一点。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
2
关东名侦探
2018-12-13 14:25:12
显示全部楼层
围观 围观 沙发在哪里!!!
回复
使用道具
举报
li2802087774
2018-12-13 20:26:24
显示全部楼层
有没有什么需要注意的?
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
web0yan
金牌会员
0
关注
0
粉丝
83
帖子
Ta的主页
发布
加好友
最近发表
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
智能穿戴概念9日主力净流入6998.51万元,水晶光电、九安医疗居前
云天励飞豪掷1.8亿收购智能穿戴IDH方案商,引领行业新潮流
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们