找回密码
 立即注册
搜索

零基础ML建模,自动机器学习平台R2 Learn开放收费试用

在数据的世界中,机器学习曾经成为不可或缺的工具。机器学习可以协助发现隐藏在大量数据中的特定知识。很多时分,这些知识都不是人类能随便分析得出的,它展现了大量理想之间的外部联络。但是假如我们需求这些隐藏知识辅助做决策,机器学习建模就成为了一个非常有效的手腕。
机器学习虽然非常弱小,但它的模型开发运用过程却相对复杂,包括很多步骤,从数据质量检测,数据后期探求,特征工程,算法选择,模型训练,参数优化,模型结果分析,模型选择,模型运营,不断到模型再优化。这些流程中每一步和每一个关键点做出的决策对于模型在实践运用中的表现都至关重要,所以找到最佳模型通常是一个不断试错的过程。
以如今的人工方式完成这个过程是非常繁琐和缓慢的,所以在很多时分由于资源工夫的限制往往不能找到最佳的模型。假如我们能把整个建模及运营流程高度自动化及优化,应用计算机的弱小算力和高质的优化搜索算法,自动疾速的找到优质的模型,那么我们就可以把大部分工夫用来疾速处理业务成绩,而不是机器学习成绩了,这也正是 R2 Learn 平台所提供的功能。
在这篇文章中,我们将引见如何运用 R2 Learn 疾速构建机器学习模型,比较它与 XGBoost 建模的优劣。
重要的是,R2 Learn 目前提供收费试用,支持下限为 50MB 的 CSV 训练数据量、两万行数据预测,足够你体验自动机器学习的魅力。不想写代码,不想学数学,但又想拥有精准机器学习模型?R2 Learn 可以让您亲身体验简单便捷、高质高效的数据迷信建模。

央求地址:https://www.r2ai.com.cn/product
什么是 R2 Learn
成立于 2015 年的 R2.ai 不断聚焦于自动化机器学习,其总部位于美国硅谷,上海和杭州都有分公司。R2 Learn 是 R2.ai 构建的 AutoML 平台,它旨在自动化及优化机器学习工作流,从而完成更简单,更疾速,更高质量的数据分析。
R2 Learn 是真正端到端的自动化机器学习处理方案,可以提供一站式服务,完成从数据清洗到模型搭建一切步骤。只需对业务数据有一定了解,你就能经过 R2 Learn 迅速建立机器学习模型,处理业务需求。该平台经过自动算法集成与模型调参,整个建模过程由机器全程处理,完成了建模过程的自动化、规范化、可视化。
无论是数据迷信家还是不具有 AI 专业知识的业务人员,R2 Learn 都可以在短工夫内让你完成机器学习建模。它的优势次要在于便捷疾速与准确优质。若与常规的 XGBoost 建模对比,我们发现 R2 Learn 完全不需求代码,数据预处理、模型搭建、训练、调参和部署等过程能自动完成,而且准确率还非常高。R2 Learn 的引导性可视化用户界面大大提高了建模的便捷性,即便是业务人员,跟着界面提示就能完成大数据分析,都不一定需求看文档或教程。此外,界面操作对 ML 开发者也很方便,可以充分发挥开发者的业务知识来辅助 R2 Learn, 例如在处理数据缺失值时,可以选择均值、中值和最值等更符合实践的方式停止补充,而完全不需求代码。
其次对于模型质量,R2 Learn 有一系列自动化的模型选择与相应的超参搜索优化算法,可以用较少的计算资源疾速选择功能最好的模型作为引荐。在我们运用 XGBoost 手动建模和 R2 Learn 平台建模后发现,R2 Learn 的模型结果愈加优秀。
全体建模流程
普通的机器学习建模过程包含多个步骤,数据迷信家首先要对数据停止清洗,其次经过一些统计分析了解数据及变量间的关系,停止特征工程,然后才能末尾建模和训练等等。在我们的体验中,R2 Learn 全体过程只需用户上传数据,其他步骤包括数据预处理、自动建模,得到分析结果,部署和监控模型均由 R2 Learn 完成,是真正端到端的全程自动机器学习。这大大减少了缺乏机器学习知识用户的操作难度。




R2 Learn 机器学习工作流。步骤 1-3 由用户完成,4-6 由 R2 Learn 自动完成


在运用 R2 Learn 的过程中,首先搜集我们的数据,它能够是业务数据,也能够是从网上爬取的一些信息。普通而言,我们可以将这些结构化数据转换为 csv 文件放在本地或者数据库上,并由用户上传至 R2 Learn。至此为止,用户担任的步骤 1-3 便完成了。
第 4 步为建立模型。当用户上传数据到 R2 Learn 平台后,R2 Learn 便会检查和清算数据,并且会以数据迷信的角度给出最好的引荐,例如引荐运用最常见的类别作为缺失类别的补充。第 4 步可分为自动化建模和高级建模,其中自动化建模会全程完成从数据清洗、自动调参、选择最优算法、搭建模型、模型评价、模型引荐的一切步骤,是真正的「一键式」建模。高级建模则为有数据迷信背景和建模阅历的用户提供手动调整建模过程中的不同处理方式,例如用户可以选择用不同方式处理缺失数据,选用不同的抢手机器学习算法训练模型,分析变量的统计信息等。用户可以重写覆盖系统决策,还能根据统计信息构建新变量。
当用户完成模型训练并且选择了合适的模型后,第 5 步为部署模型。我们可以衔接 R2 Learn 与已有的数据库,或经过上传 CSV 文件用模型对要预测的数据停止批量预测,用户也可以选择运用 R2 Learn 模型运营 API 停止实时预测。
最后第 6 步可以监控模型的预测功能。一旦根据模型得出的预测结果不理想,R2 Learn 会自动提示用户重新停止模型训练以达到理想的预测结果。
案例分析及运用体验
为了实践感受 R2 Learn 的效果,并了解它到底和主流机器学习库相比有什么优势,我们运用 R2.ai 关于类型二糖尿病预测案例,分别停止 R2 Learn 自动化建模和 XGBoost 手动建模。
R2 Learn 数据怎样做
由于糖尿病数据集是 CSV 文件,我们直接将训练集上传到 R2 Learn 即可。如下所示为 R2 Learn 中的数据概览,有点相似于 Pandas 中的 DataFrame.head,不过我们可以经过可视化操作选择要预测的目的变量与可用的特征变量,非常方便。对于分类义务,特征变量可以分为类别型和数值型,R2 Learn 可以自动检测变量类型,用户也可以根据需求自定义修正类型,这又会节省很多精神。



确定无误后,R2 Learn 会自动分析目的变量与特征变量,并给出质量修复方案。如下图所示为 R2 Learn 对数据预处理的概览。



由于 R2 Learn 可以自动检测变量类型,并对缺失值、异常值等提供处理方案,它比常规用 Pandas 预处理数据简单很多,我们不需求写代码就能完成整个流程,这就是它的便捷性。
此外,获取变量的相关性、重要性等信息,或创建新变量等高级操作都可以在 Advanced 建模形式中完成,这就是它的灵敏性。
R2 Learn 建模怎样做
处理完数据后就可以末尾建模了,R2 Learn 提供两种形式:全自动建模和高级建模,全自动建模不需求用户做任何操作,只需等待模型训练完成即可。这里简单引见下高级建模(Advanced)形式,除了后面所述获取变量的统计信息外,更重要的是可以查看自定义模型设置和参数。
对于分类和回归成绩,R2 Learn 支持不同的算法。除了平台提供的默许处理方案外,我们还可以根据详细需求选择主流机器学习算法,因此它兼顾了功能与便捷。如下图所示为高级建模的各种选项,我们额外选了随机森林和 XGBoost 两种算法,之后 R2 Learn 会停止自动建模、调参,引荐所选模型中结果最好的几个。
除了模型选择,设置中还包括了有很多其它参数,例如数据集分割比例 [Set Percentage of Each Part]、不平衡数据的重采样 [Resampling Setting]、最大模型集成数 [Set Model Ensemble Size] 等等。其中比较便捷的是重采样与模型集成:假如分类类别分布差别太大,我们可以选择自动上采样或下采样;可以经过设置模型集成数量 [Set Model Ensemble Size] 选择用来做集成模型的模型数量下限。



在随后的建模训练中,平台默许引荐两种 R2-solution 算法,不但模型训练速度非常快,并且普通能得到的模型具有较高的准确率,这也是全自动建模所采用的方式。当用户选择高级模型并且勾选了其他多种算法,模型训练时长也会相应添加,虽然如此,百万行数据需求的建模工夫依然能在一小时左右完成,这是人工根本无法比拟的。
在一切已训练模型中,R2 Learn 会根据执行速度、模型功能、验证集模型与流出集的差异等因从来综合停止模型引荐。我们也可以对每一个已训练模型查看各种可视化特征,例如 ROC 曲线、预测分布、不同变量对预测的重要性等等。
如下所示为简化版的模型效果图。我们可以看到各模型的功能与执行速度,同时还能计算模型每个变量的重要性。其中绿色和紫色分别表示各类别分类正确的比例,黄色表示分类错误的比例。



R2 Learn 会计算各个特征对模型贡献大小,如上模型,以为「gap」和「dm_duration」两个特征贡献最大,这也为实践业务分析提供协助,业务人员可以根据特征贡献大小,有的放矢地停止分析处理。
如上图所示,经过运用 R2 Learn 建立的糖尿病者预测模型,AUC 可达到 0.877,可以准确辨认出超出 HbA1C 控制的高风险患者,为临床健康风险管理提供了重要支持;分析团队在搜集到相关数据后,可以在 1-2 小时内迅速构建出模型并完成预测;整个过程仅需求一名数据分析师即可完成整个建模预测工作,不需求任何外部顾问,从而节约了大量成本。
在实践运用中,R2 Learn 不只在医疗、还有包括金融、新批发、物流、制造等众多范畴的中都有很好的表现。
R2 Learn 部署怎样用
最后的部署就比较简单了,确定最合适的训练模型,然后选择部署就行了。普通 R2 Learn 可以经过数据源或 API 停止模型部署,其中数据源又可分为本地 CSV 文件或数据库。
对比 XGBoost
最后,假如我们需求运用 XGBoost 库执行相反的义务,那么就需求按照标准的机器学习建模流程一点点完成。在顺应了 R2 Learn 后,相对比而言这个过程越发显得繁琐,尤其是对大数据的预处理和调参等。如下为预备好数据后,执行模型训练的代码样例:



模型结果:



以上模型结果为尝试不同上述超参数后建立 XGBoost 模型得到的结果,可见超参数的选择直接影响建模效果。要得到较好的模型通常需求根据建模者的阅历停止多次调试,是一个相当耗费工夫和精神的工作。
R2 Learn 端到端的全流程自动建模方式,使整个流程变得非常简单、便捷、高效,没看阐明书的状况下,用户即可在几分钟以内建立并部署模型,无论你能否拥有 AI 专业知识;而运用 XGBoost 建模则需求从头写或修正开源代码,哪怕是资深的数据迷信家,也需求数小时的工夫来完成整个工作。
而对于建模效果,R2 Learn 的模型 AUC 可达到 0.877;而应用 XGBoost 停止建模,多次调试后最佳效果也仅有 0.862。R2 Learn 在建模过程中,应用弱小算力做支撑,拥有更多模型算法、变量处理方式作为选择,从而可以建立出具有更高质量的模型。

为了让用户能亲身体验 R2 Learn 产品,R2.ai 公司近期在其网站 https://www.r2ai.com.cn/product 推出产品公开收费试用。
同时,为满足不同用户需求,提供不同运用级别的个人版线上订阅版本。云平台产品更进一步节省了企业运用人工智能停止机器学习建模所需的设备投资,使有需求的企业能立刻末尾运用抢先的 AutoML 技术停止大数据分析和预测。对企业级用户,R2.ai 提供企业级 SaaS 和本地部署产品。
假如你也想试试 R2 Learn 这种更便捷更高效的全程自动机器学习方式,快快央求试用吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评1

0火星来的0 2019-3-26 09:20:04 来自手机 显示全部楼层
……
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies