机器学习中的最优化算法总结

1181998215 · 2019-3-25 11:21:51

关注微信公众号：人工智能前沿讲习，重磅干货，第一工夫送达

导言

对于几乎所无机器学习算法，无论是有监督学习、无监督学习，还是强化学习，最后普通都归结为求解最优化成绩。因此，最优化方法在机器学习算法的推导与完成中占据中心肠位。在这篇文章中，小编将对机器学习中所运用的优化算法做一个片面的总结，并理清它们直接的头绪关系，帮你从全局的高度来了解这一部分知识。
机器学习要求解的数学模型

几乎一切的机器学习算法最后都归结为求一个目的函数的极值，即最优化成绩，例如对于有监督学习，我们要找到一个最佳的映射函数f (x)，使得对训练样本的损失函数最小化（最小化阅历风险或结构风险）：

在这里，N为训练样本数，L是对单个样本的损失函数，w是要求解的模型参数，是映射函数的参数，xi为样本的特征向量，yi为样本的标签值。
或是找到一个最优的概率密度函数p(x)，使得对训练样本的对数似然函数极大化（最大似然估计）：

在这里，θ是要求解的模型参数，是概率密度函数的参数。

对于无监督学习，以聚类算法为例，算法要是的每个类的样本离类中心的间隔之和最小化：

在这里k为类型数，x为样本向量，μi为类中心向量，Si为第i个类的样本集合。

对于强化学习，我们要找到一个最优的策略，即形状s到动作a的映射函数（确定性策略，对于非确定性策略，是执行每个动作的概率）：

使得恣意给定一个形状，执行这个策略函数所确定的动作a之后，得到的累计报答最大化：

这里运用的是形状价值函数。

总体来看，机器学习的核心目的是给出一个模型（普通是映射函数），然后定义对这个模型好坏的评价函数（目的函数），求解目的函数的极大值或者极小值，以确定模型的参数，从而得到我们想要的模型。在这三个关键步骤中，前两个是机器学习要研讨的成绩，建立数学模型。第三个成绩是纯数学成绩，即最优化方法，为本文所讲述的核心。
最优化算法的分类

对于方式和特点各异的机器学习算法优化目的函数，我们找到了合适它们的各种求解算法。除了极多数成绩可以用暴力搜索来得到最优解之外，我们将机器学习中运用的优化算法分成两种类型（不思索随机优化算法如模拟退火、遗传算法等，对于这些算法，我们后面会专门有文章停止引见）：

前者给出一个最优化成绩准确的公式解，也称为解析解，普通是实际结果。后者是在要给出极值点的准确计算公式非常困难的状况下，用数值计算方法近似求解得到最优点。除此之外，还有其他一些求解思想，如分治法，动态规划等。我们在后面单独列出。一个好的优化算法需求满足：

下图给出了这些算法的分类与它们之间的关系：

接上去我们将按照这张图来展开停止讲解。
费马定理

对于一个可导函数，寻觅其极值的一致做法是寻觅导数为0的点，即费马定理。微积分中的这一定理指出，对于可导函数，在极值点处导数必定为0：

对于多元函数，则是梯度为0：

导数为0的点称为驻点。需求留意的是，导数为0只是函数获得极值的必要条件而不是充分条件，它只是疑似极值点。是不是极值，是极大值还是极小值，还需求看更高阶导数。对于一元函数，假设x是驻点：

对于多元函数，假设x是驻点：

在导数为0的点处，函数能够不取极值，这称为鞍点，下图是鞍点的一个例子（来自SIGAI云端实验室）：

除鞍点外，最优化算法能够还会遇到另外一个成绩：部分极值成绩，即一个驻点是极值点，但不是全局极值。假如我们对最优化成绩加以限定，可以有效的避免这两种成绩。典型的是凸优化，它要求优化变量的可行域是凸集，目的函数是凸函数。

虽然驻点只是函数获得极值的必要条件而不是充分条件，但假如我们找到了驻点，再判别和挑选它们是不是极值点，比之前要容易多了。无论是实际结果，还是数值优化算法，普通都以找驻点作为找极值点的目的。对于一元函数，先求导数，然后解导数为0的方程即可找到一切驻点。对于多元函数，对各个自变量求偏导数，令它们为0，解方程组，即可达到一切驻点。这都是微积分中所讲授的基础方法。侥幸的是，在机器学习中，很多目的函数都是可导的，因此我们可以运用这套方法。
拉格朗日乘数法

费马定理给出的不带约束条件下的函数极值的必要条件。对于一些实践运用成绩，普通还带有等式或者不等式约束条件。对于带等式约束的极值成绩，经典的处理方案是拉格朗日乘数法。

对于如下成绩：

构造拉格朗日乘子函数：

在最优点处对x和乘子变量λi的导数都必须为0：

解这个方程即可得到最优解。对拉格朗日乘数法更详细的讲解可以阅读任何一本高等数学教材。机器学习中用到拉格朗日乘数法的地方有：

KKT条件

KKT条件是拉格朗日乘数法的推行，用于求解既带有等式约束，又带有不等式约束的函数极值。对于如下优化成绩：

和拉格朗日对偶的做法相似，KKT条件构如下乘子函数：

λ和μ称为KKT乘子。在最优解处x*应该满足如下条件：

等式约束hj (x*)=0和不等式约束gk (x*)<=0是本身应该满足的约束，▽xL(x*)=0和之前的拉格朗日乘数法一样。独一多了关于gi (x)的条件：

KKT条件只是获得极值的必要条件而不是充分条件。在机器学习中用到KKT条件的地方有：

数值优化算法

后面讲述的三种方法在实际推导、某些可以得到方程组的求根公式的状况（如线性函数，正态分布的最大似然估计）中可以运用，但对绝大多数函数来说，梯度等于0的方程组是没法直接解出来的，如方程外面含有指数函数、对数函数之类的超越函数。对于这种无法直接求解的方程组，我们只能采用近似的算法来求解，即数值优化算法。这些数值优化算法普通都应用了目的函数的导数信息，如一阶导数和二阶导数。假如采用一阶导数，则称为一阶优化算法。假如运用了二阶导数，则称为二阶优化算法。

工程上完成时通常采用的是迭代法，它从一个初始点x0末尾，反复运用某种规则从xk移动到下一个点xk+1，构造这样一个数列，直到收敛到梯度为0的点处。即有下面的极限成立：

这些规则普通会应用一阶导数信息即梯度；或者二阶导数信息即Hessian矩阵。这样迭代法的核心是得到这样的由上一个点确定下一个点的迭代公式：

梯度下降法

梯度下降法沿着梯度的反方向停止搜索，应用了函数的一阶导数信息。梯度下降法的迭代公式为：

根据函数的一阶泰勒展开，在负梯度方向，函数值是下降的。只需学习率设置的足够小，并且没有到达梯度为0的点处，每次迭代时函数值一定会下降。需求设置学习率为一个非常小的负数的缘由是要保证迭代之后的xk+1位于迭代之前的值xk的邻域内，从而可以忽略泰勒展开中的高次项，保证迭代时函数值下降。

梯度下降法及其变种在机器学习中运用广泛，尤其是在深度学习中。
动量项

为了加快梯度下降法的收敛速度，减少震荡，引入了动量项。动量项累积了之前迭代时的梯度值，加上此项之后的参数更新公式为：

其中Vt+1是动量项，它取代了之前的梯度项。动量项的计算公式为：

它是上一时辰的动量项与本次梯度值的加权平均值，其中α是学习率，μ是动量项系数。假如按照工夫t停止展开，则第t次迭代时运用了从1到t次迭代时的一切梯度值，且老的梯度值安μt的系数指数级衰减：

动量项累积了之前迭代时的梯度值，使得本次迭代时沿着之前的惯性方向向前走。
AdaGrad算法

AdaGrad算法是梯度下降法最直接的改进。梯度下降法依赖于人工设定的学习率，假如设置过小，收敛太慢，而假如设置太大，能够导致算法那不收敛，为这个学习率设置一个合适的值非常困难。

AdaGrad算法根据前几轮迭代时的历史梯度值动态调整学习率，且优化变量向量X的每一个分量xi都有本人的学习率。参数更新公式为：

其中α是学习因子，gt是第t次迭代时参数的梯度向量，ε是一个很小的负数，为了避免除0操作，下标i表示向量的分量。和标准梯度下降法独一不同的是多了分母中的这一项，它累积了到本次迭代为止梯度的历史值信息用于生成梯度下降的系数值。根据上式，历史导数值的相对值越大分量学习率越小，反之越大。虽然完成了自顺应学习率，但这种算法还是存在成绩：需求人工设置一个全局的学习率α，随着工夫的累积，上式中的分母会越来越大，导致学习率趋向于0，参数无法有效更新。
RMSProp算法

RMSProp算法是对AdaGrad的改进，避免了长期累积梯度值所导致的学习率趋向于0的成绩。详细做法是由梯度值构造一个向量RMS，初始化为0，按照衰减系数累积了历史的梯度平方值。更新公式为：

AdaGrad直接累加一切历史梯度的平方和，而这里将历史梯度平方值按照δt衰减之后再累加。参数更新公式为：

其中δ是人工设定的参数，与AdaGrad一样，这里也需求人工指定的全局学习率α。
AdaDelta算法

AdaDelta算法也是对AdaGrad的改进，避免了长期累积梯度值所导致的学习率趋向于0的成绩，另外，还去掉了对人工设置的全局学习率的依赖。假设要优化的参数为x，梯度下降法第t次迭代时计算出来的参数梯度值为gt。算法首先初始化如下两个向量为0向量：

其中E[g2]是梯度平方（对每个分量分别平分）的累计值，更新公式为：

在这里g2是向量每个元素分别计算平方，后面一切的计算公式都是对向量的每个分量停止。接上去计算如下RMS量：

这也是一个向量，计算时分别对向量的每个分量停止。然后计算参数的更新值：

RMS[Δx]t-1的计算公式和这个相似。这个更新值异样经过梯度来构造，只不过学习率是经过梯度的历史值确定的。更新公式为：

参数更新的迭代公式为：

Adam算法

Adam算法整合了自顺应学习率与动量项。算法用梯度构造了两个向量m和v，前者为动量项，后者累积了梯度的平方和，用于构造自顺应学习率。它们的初始值为0，更新公式为：

其中β1,β2是人工指定的参数，i为向量的分量下标。依托这两个值构造参数的更新值，参数的更新公式为：

在这里，m相似于动量项，用v来构造学习率。
随机梯度下降法

假设训练样本集有N个样本，有监督学习算法训练时优化的目的是这个数据集上的平均损失函数：

其中L(w,xi,yi )是对单个训练样本(xi,yi )的损失函数，w是需求学习的参数，r(w)是正则化项，λ是正则化项的权重。在训练样本数很大时，假如训练时每次迭代都用一切样本，计算成本太高，作为改进可以在每次迭代时选取一批样本，将损失函数定义在这些样本上。

批量随机梯度下降法在每次迭代中运用下面目的函数的随机逼近值，即只运用M《N个随机选择的样本来近似计算损失函数。在每次迭代时要优化的目的函数变为：

随机梯度下降法在概率意义下收敛。
牛顿法

牛顿法是二阶优化技术，应用了函数的一阶和二阶导数信息，直接寻觅梯度为0的点。牛顿法的迭代公式为：

其中H为Hessian矩阵，g为梯度向量。牛顿法不能保证每次迭代时函数值下降，也不能保证收敛到极小值点。在完成时，也需求设置学习率，缘由和梯度下降法相反，是为了可以忽略泰勒展开中的高阶项。学习率的设置通常采用直线搜索（line search）技术。

在完成时，普通不直接求Hessian矩阵的逆矩阵，而是求解下面的线性方程组：

其解d称为牛顿方向。迭代终止的断定根据是梯度值充分接近于0，或者达到最大指定迭代次数。

牛顿法比梯度下降法有更快的收敛速度，但每次迭代时需求计算Hessian矩阵，并求解一个线性方程组，运算量大。另外，假如Hessian矩阵不可逆，则这种方法失效。

牛顿法在logistic回归，AdaBoost算法等机器学习算法中有实践运用。
拟牛顿法

牛顿法在每次迭代时需求计算出Hessian矩阵，并且求解一个以该矩阵为系数矩阵的线性方程组，Hessian矩阵能够不可逆。为此提出了一些改进的方法，典型的代表是拟牛顿法。拟牛顿法的思绪是不计算目的函数的Hessian矩阵然后求逆矩阵，而是经过其他手腕得到一个近似Hessian矩阵逆的矩阵。详细做法是构造一个近似Hessian矩阵或其逆矩阵的正定对称矩阵，用该矩阵停止牛顿法的迭代。

一切这些次要的数值优化算法都可以在SIGAI云端实验室上收费完成实验：

www.sigai.cn

经过构造目的函数，指定优化算法的参数与初始化迭代值，可以可视化的显示出算法的运转过程，并对不同参数时的求解结果停止比较。

可信域牛顿法

标准牛顿法能够不会收敛到一个最优解，也不能保证函数值会按照迭代序列递减。处理这个成绩可以经过调整牛顿方向的步长来完成，目前常用的方法有两种：直线搜索和可信区域法。可信域牛顿法是截断牛顿法的一个变种，用于求解带界限约束的最优化成绩。在可信域牛顿法的每一步迭代中，有一个迭代序列xk，一个可信域的大小Δk，以及一个二次目的函数：

这个式子可以经过泰勒展开得到，忽略二次以上的项，这是对函数下降值：

的近似。算法寻觅一个sk，在满足约束条件||S||<=Δk下近似最小化qk(S)。接上去检查如下比值以更新wk和Δk：

这是函数值的实践减大批和二次近似模型预测方导游致的函数减大批的比值。根据之前的计算结果，再动态调整可信域的大小。

可信域牛顿法在logistic回归，线性支持向量的求解时有实践的运用，详细可以阅读liblinear开源库。
分治法

分治法是一种算法设计思想，它将一个大的成绩分解成子成绩停止求解。根据子成绩解构造出整个成绩的解。在最优化方法中，详细做法是每次迭代时只调整优化向量的一部分分量，其他的分量固定住不动。
坐标下降法

坐标下降法的基本思想是每次对一个变量停止优化，这是一种分治法。假设要求解的优化成绩为;

坐标下降法求解流程为每次选择一个分量xi停止优化，将其他分量固定住不动，这样将一个多元函数的极值成绩转换为一元函数的极值成绩。假如要求解的成绩规模很大，这种做法能有效的加疾速度。

坐标下降法在logistic回归，线性支持向量的求解时有实践的运用，详细可以阅读liblinear开源库。
SMO算法

SMO算法也是一种分治法，用于求解支持向量机的对偶成绩。加上松弛变量和核函数后的对偶成绩为：

SMO算法的核心思想是每次在优化变量中挑出两个分量αi 和 αj停止优化，让其他分量固定，这样能保证满足等式约束条件。之所以要选择两个变量停止优化而不是选择一个变量，是由于这里有等式约束，假如只调整一个变量的值，将会毁坏等式约束。

假设选取的两个分量为αi 和 αj，其他分量都固定即当成常数。对这两个变量的目的函数是一个二元二次函数。这个成绩还带有等式和不等式约束条件。对这个子成绩可以直接求得公式解，就是某一区间内的一元二次函数的极值。
分阶段优化

分阶段优化的做法是在每次迭代时，先固定住优化变量X一部分分量a不动，对另外一部分变量b停止优化；然后再固定住b不动，对b停止优化。如此反复，直至收敛到最优解处。

AdaBoost算法是这种方法的典型代表。AdaBoost算法在训练时采用了指数损失函数：

由于强分类器是多个弱分类器的加权和，代入下面的损失函数中，得到算法训练时要优化的目的函数为：

这里将指数损伤函数拆成了两部分，已有的强分类器Fj−1，以及当前弱分类器f对训练样本的损失函数，前者在之前的迭代中曾经求出，因此可以看成常数。这样目的函数可以简化为：

其中：

这个成绩可以分两步求解，首先将弱分类器权重β看成常数，得到最优的弱分类器f。得到弱分类器之后，再优化它的权重系数β。
动态规划算法

动态规划也是一种求解思想，它将一个成绩分解成子成绩求解，假如整个成绩的某个解是最优的，则这个解的恣意一部分也是子成绩的最优解。这样经过求解子成绩，得到最优解，逐渐扩展，最后得到整个成绩的最优解。

隐马尔可夫模型的解码算法（维特比算法），强化学习中的动态规划算法是这类方法的典型代表，此类算法普通是团圆变量的优化，而且是组合优化成绩。后面讲述的基于导数的优化算法都无法运用。动态规划算法能高效的求解此类成绩，其基础是贝尔曼最优化原理。一旦写成了递归方式的最优化方程，就可以构造算法停止求解。

本文版权归《SIGAI》，转载请自行联络。

点击下方图片，了解课程概况

人脸分析

刘能 · 2019-3-25 11:30:47

分享了

sky-walker · 2019-3-25 20:50:29

非常好，顶一下

@Xizi_EgqQHIzR · 2019-3-26 11:08:31

路过帮顶嘿嘿

		自动登录	找回密码
密码			立即注册

机器学习中的最优化算法总结

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们