找回密码
 立即注册
搜索

机器学习初学者的9大算法(建议收藏!)

在过去几年中,机器学习的运用和它的才能呈指数级增长。我们的祖父母以为只要知识分子才能做的事情如今是由机器来做的,而不受人类的干涉。这就是机器学习的力气。

1952年, IBM 的阿瑟•塞缪尔( Arthur Samuel )初次提出了“机器学习”这一术语,当时他还没有想到机器学习将开拓出一个全新的范畴,从协助残疾人,到经过决策和动态定价来鼓励企业。

机器学习是一种数据分析方法,可自动生成分析模型。它是一种技术的分支,允许系统从数据中学习,辨认形式,并以最少的人工干涉做出决策。







机器学习使我们可以构建可以了解图像、声响和言语的软件,并让我们每天学习更多关于技术的知识。

当我第一次从2013年 Verge 的一篇文章中了解到机器学习的时分,我永远不能了解机器是如何被训练的!??直到2015年我末尾我的本迷信业,我才末尾学习机器学习。训练数据测试数据,无监督的数据,决策树,随机森林到深度学习和神经网络,这是一个沉重的知识云。

一个接一个,我学习了不同的机器学习算法,并做了关于它的项目。我越多地阅读和运用它们,我就明白,有一些算法是你末尾的,这使你更熟习整个 ML 和 AI 生态系统。

在我们进入这个故事之前,非常重要的是,设置的基础正确的监督和无监督学习。
监督学习

监督学习是当你有一些输入变量,比如 x 和一个输入变量 y 时,你运用算法从输入到输入的映射函数学习 y = f ( x )

监督学习的目的是近似映射函数,当您有新的输入数据( x )时,您可以用相反的精度预测该数据的输入变量( Y )。

它被称为监督学习,由于算法的学习过程是从训练数据集学习的,可以被以为是一个类比,教师监督一些先生的学习过程。



无监督学习

无监督学习是当您只要输入数据 x 而没有相应的输入变量时。

无监督学习的目的是在数据中构造底层结构或分布,以便了解更多有关数据的信息。

这叫做无监督学习,由于与监督学习不同,没有正确的处理成绩的方法,也没有教师来监督。算法学习数据本身,设计出以最好的方式在数据中发现和呈现风趣的结构。

因此,经过我的这个故事,让我们进入前10机器学习算法,我们曾经听到了大约100次,但这次清楚地阅读了它的运用和才能,没有特定的重要性顺序。
1.线性回归

线性回归是一种基于监督学习的机器学习算法。线性回归模拟了一个因变量和一个或多个独立变量之间的关系。线性回归次要用于处理标质变量和探求性变量。

线性回归找到它的运用程序,以确定因变量(标量)和一个或多个独立变量(探求性)之间存在线性关系的程度。一个独立变量被用来预测一个因变量的值。




系数如下:




线性回归的真实生活运用:
    金融服务或保险范畴的风险管理

    预测分析

    经济计量

    盛行病学

    天气数据分析

    客户调查结果分析
2.逻辑回归

当从属变量为二值时运用逻辑回归。它是统计数据中二元分类成绩的一种入门方法。首先,了解何时运用线性回归和何时运用逻辑回归是非常重要的。

Linear 和逻辑回归之间有什么区别?

当因变量为延续且回归线的性质为线性时,运用线性回归。

逻辑回归在从属变量本质上为二值时运用。

何时运用逻辑回归?

这是一个特殊的状况线性回归,其中目的变量是明白的性质。它运用一个赔率日志作为因变量。

sigmoid 函数(也称为 logistic 函数)给出了一个“ S ”外形的曲线,它可以接受任何实值数字,并将其映射到0到1之间的值。

假如曲线变为正无量大,则 y 的预测将变为1

假如曲线变为负无量大,则 y 的预测将变为0







假如 sigmoid 函数的输入大于0.5,我们可以将结果分类为1或 YES ,假如小于0.5,我们可以将其分类为0或 NO

假如产量为0.75,我们可以用概率来表示:病人患癌症的几率为75%。

因此,逻辑回归应用 sigmoid 函数预测二值事情的发生概率。

逻辑回归的理想生活运用:
    癌症检测

    创伤和损伤严重程度评分

    图像分割和分类

    地理图像处理

    手写辨认

    根据语料库中的词袋预测一个人能否抑郁
3.支持向量机

机器学习次要触及预测和分类数据。要做到这一点,需求根据数据集完成一组机器学习算法。其中一个 ML 算法是 SVM 。想法很简单:创建一行或超平面,将数据分隔为多个类。

支持向量机( SVM )是一种受监督的机器学习算法,可用于分类或回归应战。但是,它次要用于分类成绩. SVM 基于它转换数据,在能够的输入之间找到最佳边界。

支持向量机经过找到最大限制地提高两个类之间的边距的超平面来执行分类。

定义超平面的向量称为支持向量。







SVM 算法:
    运用最大利润定义最佳超平面将数据映射到高维空间,在该空间中,运用线性决策曲面更容易停止分类重新设计成绩,以便将数据隐式映射到此空间

SVM 的真实生活运用:
    人脸检测—对图像上的面部和非面部区域停止分类

    文本和超文本分类

    图像分类

    生物信息学-蛋白质、基因、生物或癌症分类。

    手写辨认

    治疗药物发现

近几年来, SVM 在癌症检测和治疗中发挥了非常重要的作用。
4.决策树

决策树是一个决策支持工具,它运用树型决策过程模型和能够的结果。它包括事情结果、资源成本和决策的功效。决策树相似于仅包含条件控制语句的算法或流程图。







决策树与根节点在顶部被倒过来。每个决策树有3个关键部分:一个根节点,叶节点,分支。

在决策树中,每个外部节点表示测试或事情。比方说,一个头或尾巴在一个硬币翻转.每个分支代表测试的结果,每个叶节点代表一个类标签,这是在计算一切属性后作出的决议。从根到叶节点的途径表示分类规则。

决策树可以是一个弱小的机器学习算法分类和回归。分类树对目的停止分类,以确定它是头还是尾。回归树以相似的方式表示,但它们预测的是延续的价值,比如附近的房价。

关于决策树最好的部分:
    处理数值和分类数据处理多输入成绩决策树在数据预备方面所需的工作量相对较少参数之间的非线性关系不会影响树功能

决策树的理想生活运用:
    选择游览的航班

    预测酒店的入住日期

    附近的药店对客户 X 来说尤其有效

    癌症与非癌性细胞的分类,癌性细胞很少见,比如说1%

    建议顾客买什么车
5.随机森林

机器学习中的随机森林是一种集成学习技术,触及分类、回归和其他操作,在训练工夫依赖于大量决策树。它们是疾速、灵敏的,代表了一种用于发掘高维数据的稳健方法,并且是我们下面提到的分类和回归决策树的扩展







通常,集成学习可以定义为经过组合单个模型停止预测的模型。集成模型倾向于更灵敏,更少的偏向和更少的方差。集成学习有两种盛行的方法:
    打包:每个单独的树从数据集中随机抽取,并由数据的随机子集训练,生成不同的树提升:每个树/模型都从先前模型的错误中学习并改进

随机森林运转工夫相当快。它们在处理丢失和不正确的数据方面非常有效。在否定项上,它们不能预测训练数据中超出定义范围的数据,并且它们能够会超出特别嘈杂的数据集。

随机森林应该有许多树在64-128树之间。

随机森林和决策树之间的差异

随机森林本质上是决策树的集合。决策树是在整个数据集上构建的,运用一切感兴味的要素/变量,而随机森林则随机选择观测数据/行和特定要素/变量,以构建多个决策树,然后对结果停止平均。

随机森林的理想生活运用:
    银行账户、信誉卡欺诈检测

    检测和预测药物的药物敏感性

    经过分析病人的医疗记录来辨认病人的疾病

    购买特定股票时的估计损失或利润
6.最近邻

K-最近邻( kNN )是一种简单的有监督的机器学习算法,可用于处理分类和回归成绩.

kNN 存储可用的输入,并基于相似的测量(即间隔函数)对新的输入停止分类。已在统计估计和形式辨认中得到次要运用。

kNN 起什么作用?

KNN 经过查找查询与数据中一切输入之间的间隔来工作。接上去,它选择最接近查询的指定数量的输入,如 K 。然后它投票给最频繁的标签(在分类的状况下)或平均标签(在回归的状况下)。



KNN无监督最近邻示例





KNN最近邻分类示例





KNN最近邻回归示例






kNN 算法:
    加载数据将 k 初始化为数据中选定的邻居数对于数据中的每个示例,计算查询示例与来自数据的当前输入之间的间隔将该间隔添加到输入的索引以停止有序集合按间隔按升序对间隔和索引的有序集合停止排序从排序的集合中选择前 K 个条目获取所选 K 项的标签假如是回归,则前往 K 标签的平均值;假如是分类,则前往 K 标签的形式

kNN 在理想世界中的运用:
    指纹检测

    预测股票市场

    货币汇率

    银行破产

    信誉评级

    贷款管理

    洗钱分析

    从糖尿病人血液的红外吸收光谱中估计糖尿病人血液中的葡萄糖含量。

    根据临床和人口统计学变量确定癌症的风险要素.
7.K-均值聚类

K-均值聚类是最简单和最盛行的无监督机器学习算法之一。

我们没有谈到相似的事情吗?

最近邻和 k-均值聚类之间的差异

K-均值算法辨认 k 个质心,然后将每个数据点分配给最近的群集,同时使质心尽能够小。K-均值中的“方法”指的是数据的平均,即找到质心。

K-均值算法从第一组随机选择的质心末尾,这些质心被用作每个簇的起始点,然后执行迭代(反复)计算以优化质心的地位。当质心已波动或已完成定义数目的迭代时,它中止创建和优化群集。

K-均值聚类算法:
    指定群集 K 的数量。将质心初始化为数据集的第一个打乱顺序,然后为质心随机选择 K 个数据点而无需交换继续迭代直到质心波动计算数据点与一切质心之间的平方间隔和将每个数据点分配给最近的群集(质心)经过计算属于每个群集的数据点的平均值来计算群集的质心。

K-均值聚类的真实世界运用程序:
    辨认假旧事

    渣滓邮件检测和过滤

    按类型分类书籍或电影

    城市规划时的大众交通道路
8.朴素贝叶斯

朴素贝叶斯是我最喜欢的,超级有效,常用的机器学习分类器。朴素贝叶斯本身就是一系列算法,包括用于受监督和无监督学习的算法。

朴素贝叶斯分类器是一组基于贝叶斯定理的分类算法。它不是一种单一的算法,而是一系列算法,它们都有一个共同的准绳,即被分类的每对特征彼此独立

为了了解朴素贝叶斯,让我们回顾一下贝叶斯规则:

什么是如此“天真:在朴素贝叶斯年?

朴素贝叶斯( NB )是干练的,由于它假设测量的属性是互相独立的。我们可以简单地将一个属性作为独立的量,并确定属于该属性具有相反值的类的先前度量的比例。

朴素贝叶斯次要用于根据多个属性预测不同类别的概率。在发掘数据时,它次要用于文本分类。假如您查看朴素贝叶斯的运用程序,您不断想做的项目可以经过这一系列算法来完成。







朴素贝叶斯的真实世界运用程序:
    分类一篇关于技术、政治或体育的旧事文章

    情感分析在社交媒体上

    面部辨认软件

    引荐系统在 Netflix , Amazon

    渣滓邮件过滤
9.主成分分析( PCA )

主成分分析( PCA )是一种无监督的统计程序,次要用于机器学习和特征提取的降维。

当我们讨论高维度时,这意味着数据集具有大量的特征。这需求大量的内存和计算才能。

PCA 运用正交变换将一组相关变量转换为一组不相关变量。它用于经过线性组合来解释一组变量的方差-协方差结构。它也是探求性数据分析和预测建模中运用最广泛的工具。

PCA 背后的思想是简单地找到汇总数据的低维轴集合。例如,我们有一个由一组汽车属性组成的数据集;大小、颜色、座位数、门数、行李箱大小、循环度、紧实度、半径……但是,这些特性中的许多都表示相反的结果,因此能够是多余的。作为聪明的技术人员,我们应该努力消弭这些冗余,并用更少的属性描画每辆车,使计算简单。这正是 PCA 计划要做的。

PCA 不思索属性信息。它关注每个属性的方差,由于存在高方差将表示类之间的良好分割,这就是我们如何减少维数的方法。PCA 从来不只是思索一些而放弃其他。它思索了属性统计。

PCA 的真实世界运用程序:
    优化多通讯信道中的功率分配

    图像处理

    电影引荐系统

谢谢你的阅读!我希望你喜欢这篇文章。你希望在机器学习旅程中学习或探求什么技能?

祝您数据愉快!




本文由未艾信息(www.weainfo.net编译,

想看更多译文,欢迎大家点击下面的链接停止查看~

也可以关注我们的公众号:为AI呼吁

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

Kalon 2020-1-23 12:46:00 显示全部楼层
小白一个 顶一下
回复

使用道具 举报

fzcj860 2020-1-24 13:53:20 显示全部楼层
楼猪V5啊
回复

使用道具 举报

李少龙 2020-1-24 21:43:46 显示全部楼层
顶顶更健康
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies