如何处理机器学习图像辨认中的常见成绩 - 智客公社

[attach]83554[/attach]

引见

大多数与图像辨认相关的分类成绩都存在着众所周知的成绩。例如，通常不会有足够的数据来正确训练分类系统，数据能够有一些未充分表示的类，而且最常见的是，运用未经审查的数据意味着运用标签不佳的数据。

数据是决议你的努力能否会失败或成功的关键。这些系统不只仅需求比人类更多的数据来学习和区分不同的类，它们还需求成千上万倍的数据来完成这项工作。

深度学习依托大量高质量的数据来预测将来的趋向和行为形式。数据集需求代表我们想要预测的类，否则，系统将倾向倾斜的类分布，偏向将毁坏您的模型。

这些成绩通常有一个共同的缘由;查找、提取和存储大量数据的才能，以及清算、管理和处理这些数据的才能。

虽然我们可以提高计算才能和数据存储容量，但是当针对大型数据集运转复杂且大型的卷积神经网络时，一台机器将不会无机会。它能够没有足够的空间，并且很能够没有足够的计算才能来运转分类系统。它还需求经过云资源访问并行/分布式计算，并了解如何运转，组织和设置复杂的集群。

但是，拥有足够的数据和处理才能并不足以预防这些成绩。

在这篇文章中，我们将探求和讨论不同的技术，这些技术可以处理运用小数据集时出现的成绩，如何减轻类不平衡，以及如何防止过度拟合。

迁移学习

我们知道深度学习算法需求大量的标签数据，才能从头末尾训练一个完全成熟的网络，但我们常常不能完全了解这意味着多多数据。仅仅是找到满足您需求的数据量能够是一个无休止的挫败源，但是有一些技术，例如数据加强或迁移学习，将为您的模型节省大量的精神和工夫。

迁移学习是一种非常盛行和弱小的方法，简而言之，它可以总结为从一个由更大数据集指点的预训练的机器学习模型中学习的过程。这种方法包括去掉预训练好的模型的最后几层，然后用你的小数据集对它们停止再训练。

不平衡数据

通常，数据集中一组标签与另一组标签的比例是不平衡的。例如，假设我们有一个二元分类成绩，X类代表95%的数据，Y类代表5%。因此，模型对X类更敏感，对y类更不敏感，当分类器的准确率达到95%时，基本上每次都能预测X类。

显然，这里的准确性不是一个适当的计分。在这种状况下，我们应该思索误差成本、精度和召回。一个合理的终点是不同类型错误的二维表示，换句话说，一个混淆矩阵。在我们分类结果的上下文中，它可以被描画为阐明实践标签与标签预测的方法，如下图所示

[attach]83555[/attach]

经过存储从模型的预测中获得的真阳性，假阳性，真阴性和假阴性的每个标签的数量，我们可以运用召回和准确度来估计每个标签的功能。精度定义为：

[attach]83556[/attach]

召回被定义为：

[attach]83557[/attach]

召回和/或准确将揭示潜在的成绩，但不能处理它。但是，有不同的方法可以缓解与类分布分明不平衡相关的成绩：

过度拟合

正如我们所知，我们的模型经过反向传播和最小化成本函数来学习/概括数据集上的关键特征。来回的每个步骤称为epoch，并且对于每个epoch，训练模型并调整权重以cost of the errors。为了测试模型的准确性，通常的规则是将数据集拆分为训练集和验证集。

训练集用于调整和创建模型，验证集测试基于不可见样本的模型的效率和验证。

[attach]83558[/attach]

虽然真实状况的验证错误的变化往往会显示更多的腾跃和下降：

在每个时期结束时，我们运用验证集测试模型，并且在某些时分模型末尾记忆训练集中的特征，而成本误差和验证集上的样本的准确性变得最差。当我们到达这个阶段时，模型过度拟合。

选择网络的大小和复杂程度将是过度拟合的决议性缘由。复杂的架构更容易过度拟合，但有一些策略可以防止它：

L2正则化

L2正则化是一种可用于经过为较大的个体权重分配约束来降低机器学习模型复杂度的方法。经过设置惩罚约束，我们减少了机器学习模型对训练数据的依赖性。

Dropout

Dropout也是正则化的常用选项，它用于更高层的隐藏单元，因此我们最终为每个epoch提供不同的架构。基本上，系统随机选择要在训练时期移除的神经元。因此，经过不断调整权重，网络被迫从数据中学习更普通的形式。

结论

正如我们所看到的，有各种不同的方法和技术来处理图像辨认中最常见的分类成绩，每种方法和技术都有其优点和潜在的缺陷。存在诸如数据不平衡，过度拟合等成绩，并且常常没有足够的可用数据，但正如我们所解释的那样，它们的效果可以经过转移学习，采样方法和正则化技术来减轻。