当我们假设一个w和b后,循环计算每一个 x 所得的值和真实 x 所对应的值相减,然后将每一个差相加求和,得到一个差值之和,就是当前的损失。
损失越小,阐明所寻觅到的 w 和 b 就越合适,当 Loss 为 0 时,阐明此时模型的准确率为 100% 。
理想上,这和高中概率与统计运用题,给你一堆 x,y ,然后求一个 系数w 和 常量b 出来是一样的一样的。只不过在计算机中,由于算力比手算弱小太多了,所以我们可以一遍一遍的调整 w 和 b 这两个参数,使 Loss 不断向趋于 0 的方向移动 ,从而使模型的准确率趋于 100% 。
通常,为了使 Loss 一直保持为正 ,也会有如下损失函数:
经过迭代,我们可以逐渐的逼近索要寻觅的极值。
这里,我们还人为的引入了一个 η 参数,这个参数用于调整步长。步子迈大了能够会越过极值,迈小了有会产生很大的计算量,详细取多大合适,还是要多看看老司机们烫过的坑。
普通的梯度下降法(批梯度下降法,BGD),需求遍历一切的数据样本,在样本量不大的时分还是可以的,毕竟这么干精度最少是很高的。但是假如样本容量宏大,那每次遍历一切样本,必然都会耗费很多工夫成本。并且假如我们的损失函数不是一个凸函数误差曲面就会存在多个部分极小值(即部分碗底),那采用这种方法能够会堕入部分最优解中。