图像辨认范畴四大天王谁最强？谷歌实力碾压微软IBM亚马逊

1314小魏 · 2019-8-12 11:29:59

【新智元导读】作为机器学习最抢手的范畴之一，图像辨认是判别AI聪明与否的一个重要标准。作为次要的参与者，微软、IBM、谷歌和亚马逊在这项技术上投入巨资，那么，到底哪一家做得更好呢？研讨发现，谷歌在图像辨认方面获得了81.7％的准确率，仅次于人类，四家中排名第一。

机器学习最抢手的范畴之一是图像辨认。有许多次要参与者在这项技术上投入巨资，包括微软，IBM，谷歌和亚马逊。但哪一个做得最好？

Perficient Digital的研讨团队发布了一份对这四家科技巨头图像辨认的研讨报告。报告显示，谷歌在图像辨认方面获得了81.7％的准确率，在四家中最高；IBM在图像辨认方面获得了55.6％的准确率，在四家中最低。

本次研讨触及的图像辨认引擎包括：

亚马逊AWS Rekognition
谷歌Vision
IBM Watson
微软Azure Computer Vision

本次研讨运用了2000张图像，分为四类：

图表
风景
人物
产品

每个图像辨认引擎前往的标签总数如下：

研讨团队运用两种不同的方法来评价每个引擎：

来自每个图像辨认引擎的标签的准确度（500个图像），称之为“准确度评价”。
来自图像辨认引擎的标签能否是描画每个图像的最佳婚配（2000个图像），这被称为“婚配人类描画评价”。

一、图像辨认引擎标签准确度

在准确性评价中，对500张图像中的每一张，图像辨认引擎的每一个标签都要评价其能否准确。有“准确、不准确和我不确定”三个选项（只要1.2%的标签被标记为“不确定”）。

这里的区别在于标签可以被判别为准确，即便它是人类在描画图像时不太能够运用的标签。例如，室外场景的图片能够被引擎标记为“全景”，并且完全准确，但照旧不是用户想要描画图像的标签之一。

思索到这一点，下表是每个引擎的得分：

很分明，赢家是谷歌Vision（准确率81.7%），亚马逊AWS Rekognition排在第二位（准确率77.7%），微软Azure排名第三（准确率75.8%），IBM Watson排名最后（准确率55.6%）。

置信程度

以上分数涵盖每个引擎前往的一切标记。但是，每个引擎也会前往他们对每个标记的置信度的分数。这使它可以前往更具揣测性的标签。以下是每个引擎的置信度得分汇总的数据：

以下是引擎具有90％或更高置信度的一切图像：

这些数据令人着迷的是，在纯粹的准确性基础上，四个引擎中的三个（亚马逊，谷歌和微软）的得分高于人类标记，最高置信度超过90％。

当我们将置信程度降至80％或更高时，让我们看看这是如何变化的：

在这个级别，我们看到“人手标记”的分数基本上与我们在亚马逊AWS Rekognition，谷歌Vision和微软Azure Computer Vision中看到的分数相反。

可以预期，给出低置信度的标签的准确性会降低，理想证明是这样的：

对于接上去的几个图表，研讨人员经过图像辨认引擎在许多类别的置信程度上看准确性。

亚马逊AWS Rekognition

谷歌Vision：

IBM Watson：

微软Azure Computer Vision：

在一切的引擎中，我们都可以看到，它们在分配给更高置信度分数的标签上做得更好。

二、图像辨认引擎与人类的想法相婚配的程度如何？

婚配人类描画评价的不同之处在于，研讨人员向用户呈现了每个引擎为每个图像提供的前五个最高置信度标签，而没有告诉他们来自哪个图像辨认引擎。

然后，在2000张图像中，研讨人员要求用户选择并陈列他们以为最能描画图像的前五个标签。与之前的数据集不同，这里的重点是最佳婚配人类的想法。这次评价的目的是看看哪个引擎最接近这一点。

对于数据，让我们从平台的平均得分末尾，总计：

如图所见，“手动标记”图像的得分远高于任何引擎。这是可以预料到的，由于手动标记的标签的图像描画是准确的。

四个图像辨认引擎和人类程度之间的差距非常大。值得留意的是，四个引擎中Google Vision分明功能更高，但手动标记结果的选择频率仍远高于任何引擎给出的结果。

总之，人类照旧可以比机器API更好地辨认图像，并对其别人解释本人的看法。这是由于几个要素的作用，其中包括言语的特异性、具有广阔背景知识基础的引擎常常会关注对人类没有严重意义的属性，因此虽然这些属性是准确的，但人类更有能够描画他们的感受，更准确地辨认图像。

下图为按图像类型分类的分数视图：

按图像类别划分很有意思。人类手动标记的标签仍是每个类别中目的最多的标签。Google Vision在四个类别中的三类中获胜，亚马逊AWS几乎没有在任何类别中占据优势。

当引擎标签的置信度为90％以上时，四个引擎中的三个得分高于人工标注标签。

三、图像辨认引擎的词汇表

本研讨最风趣的发现之一就是不同平台上词汇引擎的变化状况。以下是参与比较的四个平台的原始数据，以及我们的“手动标记”结果。

当然，根据图像类型不同，词汇发生变化是自但是然的事情（详细数据以下给出）。

下图为AWS Rekognition的结果：

Google Vision:

IBM Watson:

微软 Azure Computer Vision：

如上所见，你能够曾经留意到了，我们将数据分成了一个个单词，但不多数据标签长度都不止一个单词，而且标签的平均长度会随着不同引擎发生一定程度的变化，下图所示为每个标签下的平均单词数量。

最后，是对于每个图像辨认引擎每次反应的平均字数。

每种引擎下的等级程度

总体看来，一切的引擎间隔人类描画图像的方式还有很大的间隔。

其他特征：IBM Watson是“艺术家”，AWS是“时兴达人”

IBM Watson最爱五颜六色：其API具有最独特的颜色变化组合和最多的颜色种类。

Google Vision和微软Azure Computer Vision也常常提到“黄色”，但都比不上IBM Watson的“艺术家”气息。

Microsoft Azure Computer Vision可以描画图像质量：引擎会前往“模糊”以及“像素级”的结果。

停止时词汇：IBM Watson有112个回复以停止时“ing”结束，Amazon AWS Rekognition这样的回复结尾有62个，Microsoft Azure Computer Vision有87个，Google Vision有103个。

IBM Watson喜欢高度描画性的词语, 并为这些词汇添加语境：pinetum（松树），牛轭（河），LED显示屏（计算机/电视），rediffusion（分布），'蔓藤花纹（装饰），'dado（骰子），'登山杖（攀爬装备）。

实践上，IBM Watson在很多方面都过于极端地描画了图像。这能够导致IBM Watson面临的一些准确性上的成绩。从积极方面来说，这种对高度描画性词语的关注应该运用户更容易找到与其查询央求相关的图像。

AWS Rekognition是一个“时兴达人”：亚马逊AWS Rekognition喜欢服装。它比其他API更能辨认出短裤、裤子和衬衫。

Google喜欢猫，IBM Watson喜欢狗：谷歌更擅长辨认出猫的种类，IBM Watson更擅长辨认出狗的种类，并对它们有更详细的了解，甚至可以详细到“德国短毛指针犬”。Microsoft Azure在猫的辨认上仅次于Google Vision，位居第二。

总结

很分明，Google Vision是这场比拼中的赢家，在原始精度和与人类描画图像的分歧性上处于抢先。
IBM Watson在测试中排名最后，但应该留意到IBM Watson在自然言语处理方面表现优秀，而NLP这不是本研讨的重点。它是迄今为止唯逐一家为自定义NLP模型创建构建残缺GUI的次要AI供应商，Watson平台不只允许分类，还允许经过该GUI提取自定义实体。
异样令人兴奋的是，当置信度大于90％时，四个引擎中的三个引擎的原始精度得分要高于人类手动标记。这是图像辨认引擎功能和发展潜力的强有力的证明。不过，从图像辨认引擎以相似人类的方式描画图像，并以此停止图像标记的表现来看，将来还有很长的路要走。

原文链接：

https://www.perficientdigital.com/insights/our-research/image-recognition-accuracy-study

新丰江边 · 2019-8-12 18:53:21

专业抢沙发的！哈哈

aiyiyi68 · 2019-8-13 14:04:31

支持，赞一个

倩儿liang · 2019-8-14 16:08:40

好棒的分享楼主多写点吧，写完记得通知我，哈哈

		自动登录	找回密码
密码			立即注册

图像辨认范畴四大天王谁最强？谷歌实力碾压微软IBM亚马逊

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们