计算机视觉的领域正从统计方法转变为深度学习神经网络方法。在计算机视觉中仍然需要解决许多具有挑战性的问题。 尽管如此,深度学习方法仍在某些特定问题上取得了最新的成果。有趣的不仅仅是深度学习模型在基准问题上的表现。 事实是,单个模型可以从图像中学习含义并执行视觉任务,从而不需要专门的手工方法。
在本文中,你将发现九个有趣的计算机视觉任务,其中深度学习方法正在取得进展。注意,在图像分类(识别)任务时,采用了ILSVRC的命名约定。 尽管这些任务集中在图像上,但是它们可以推广到视频帧。
我试图将重点放在你可能感兴趣的最终用户问题的类型上,而不是在深度学习方面做得很好的更多学术子问题上。
每个示例都提供了对该问题的描述以及一个示例。是否有未列出的最喜欢的用于深度学习的计算机视觉应用程序?
1、图像分类
图像分类涉及为整个图像或照片分配标签。这个问题也被称为“对象分类”,并且可能更普遍地被称为“图像识别”,尽管后者的任务可能适用于与图像内容分类有关的更广泛的任务集。
图像分类的一些示例包括:
是否将X射线标记为癌症(二进制分类)。
对手写数字进行分类(多类分类)。
为面部照片分配名称(多类分类)。
用作基准问题的图像分类的一个流行示例是MNIST数据集。
街景房门号码(SVHN)数据集是对数字照片进行分类的一种流行的现实版本。
该图像的类别是什么?
有许多涉及对象照片的图像分类任务。 两个受欢迎的示例包括CIFAR-10和CIFAR-100数据集,这些数据集的照片分别分为10类和100类。
大规模视觉识别挑战赛(ILSVRC)是一项年度竞赛,在该竞赛中,团队将根据ImageNet数据库中提取的数据,在一系列计算机视觉任务中争夺最佳性能。 图像分类的许多重要进步来自有关此挑战的任务或有关此任务的论文,其中最著名的是有关图像分类任务的早期论文。
2、具有本地化的图像分类
具有本地化的图像分类涉及为图像分配类别标签,并通过边界框(在对象周围绘制一个框)显示对象在图像中的位置。
这是图像分类的更具挑战性的版本。
具有本地化的图像分类的一些示例包括:
标记X射线是否为癌症,并在癌变区域周围画一个方框。
在每个场景中对动物的照片进行分类并在动物周围画一个方框。用于本地化图像分类的经典数据集是PASCAL视觉对象类数据集,或简称为PASCAL VOC(例如VOC 2012)。 这些是多年来在计算机视觉挑战中使用的数据集。
该任务可能涉及在图像中同一对象的多个示例周围添加边界框。 这样,有时将该任务称为“对象检测”。用于本地化图像分类的ILSVRC2016数据集是一个受欢迎的数据集,包含150,000张照片和1,000个对象类别。
3、物体检测
尽管图像可能包含需要定位和分类的多个对象,但是对象检测是通过定位对图像进行分类的任务。与简单的图像分类或具有定位的图像分类相比,这是一个更具挑战性的任务,因为通常在不同类型的图像中存在多个对象。通常,针对本地化图像分类而开发的技术已被使用并证明用于物体检测。
对象检测的一些示例包括:
绘制边界框并标记街道场景中的每个对象。
绘制边界框并标记室内照片中的每个对象。
绘制边界框并标记景观中的每个对象。
PASCAL视觉对象类数据集或简称PASCAL VOC(例如VOC 2012)是用于对象检测的常见数据集。另一个用于执行多个计算机视觉任务的数据集是Microsoft的“上下文数据集中的通用对象”,通常称为MS COCO。
4、对象分割
对象分割或语义分割是对象检测的任务,其中在图像中检测到的每个对象周围画一条线。 图像分割是将图像分割成多个部分的更普遍的问题。对象检测有时也称为对象分割。
与涉及使用边界框识别对象的对象检测不同,对象分割可识别图像中属于该对象的特定像素。 这就像一个细粒度的本地化。一般而言,“图像分割”可能是指将图像中的所有像素分割为不同类别的对象。
同样,VOC 2012和MS COCO数据集可用于对象分割。KITTI Vision Benchmark Suite是另一个受欢迎的对象细分数据集,它提供用于自动驾驶汽车训练模型的街道图像。
5、样式转移
样式转移或神经样式转移是从一个或多个图像中学习样式并将该样式应用于新图像的任务。可以将此任务视为可能没有客观评估的一种照片滤镜或变换。
例如,将特定的著名艺术品(例如帕勃罗·毕加索(Pablo Picasso)或文森特·梵高(Vincent van Gogh))的风格应用于新照片。数据集通常涉及使用公共领域的著名艺术品和来自标准计算机视觉数据集的照片。
6、图像着色
图像着色或神经着色涉及将灰度图像转换为全色图像。可以将此任务视为可能没有客观评估的一种照片滤镜或变换。示例包括为旧的黑白照片和电影着色。
数据集通常涉及使用现有的照片数据集并创建模型必须学会着色的照片的灰度版本。
7、影像重建
图像重建和图像修复是填充图像缺失或损坏的部分的任务。可以将此任务视为可能没有客观评估的一种照片滤镜或变换。例如,重建旧的,损坏的黑白照片和电影(例如,照片恢复)。数据集通常涉及使用现有照片数据集并创建模型必须学习修复的照片的损坏版本。
8、图像超分辨率
图像超分辨率是生成比原始图像具有更高分辨率和细节的图像新版本的任务。通常,为图像超分辨率开发的模型可以解决相关问题,因此可以用于图像恢复和修复。数据集通常涉及使用现有照片数据集并创建照片的缩小版本,而模型必须学习这些缩小版本的模型才能创建超分辨率版本。
9、图像合成
图像合成是生成现有图像或全新图像的目标修改的任务。这是一个非常广阔的领域,正在迅速发展。它可能包括对图像和视频的少量修改(例如,图像到图像的翻译),例如:
更改场景中对象的样式。
将对象添加到场景。
在场景中添加面孔。
它还可能包括生成全新的图像,例如:
生成面孔。
生成浴室。
产生服饰。
其他问题
我没有涉及其他重要而有趣的问题,因为它们不是纯粹的计算机视觉任务。据推测,人们学会了在其他形式和图像(例如音频)之间进行映射。
计算机视觉与语音识别的应用示例
Gravitylink推出钛灵AIX是一款集计算机视觉与智能语音交互两大核心功能为一体的人工智能硬件,Model Play是面向全球开发者的AI模型资源平台,内置多样化AI模型,与钛灵AIX结合,基于Google开源神经网络架构及算法,构建自主迁移学习功能,无需写代码,通过选择图片、定义模型和类别名称即可完成AI模型训练。 |