门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
图像识别
›
图像识别领域四大天王谁最强?谷歌实力碾压微软IBM亚马 ...
返回列表
图像识别领域四大天王谁最强?谷歌实力碾压微软IBM亚马逊
[复制链接]
zengli88
2022-7-14 08:37:09
显示全部楼层
|
阅读模式
【新智元导读
】作为机器学习最热门的领域之一,图像识别是判断AI聪明与否的一个重要标准。作为主要的参与者,微软、IBM、谷歌和亚马逊在这项技术上投入巨资,那么,到底哪一家做得更好呢?研究发现,谷歌在图像识别方面取得了81.7%的准确率,仅次于人类,四家中排名第一。
机器学习最热门的领域之一是图像识别。有许多主要参与者在这项技术上投入巨资,包括微软,IBM,谷歌和亚马逊。但哪一个做得最好?
Perficient Digital的研究团队发布了一份对这四家科技巨头图像识别的研究报告。报告显示,
谷歌在图像识别方面取得了81.7%的准确率,在四家中最高;IBM在图像识别方面取得了55.6%的准确率,在四家中最低
。
本次研究涉及的图像识别引擎包括:
亚马逊AWS Rekognition
谷歌Vision
IBM Watson
微软Azure Computer Vision
本次研究使用了2000张图像,分为四类:
图表
风景
人物
产品
每个图像识别引擎返回的标签总数如下:
研究团队使用两种不同的方法来评估每个引擎:
来自每个图像识别引擎的标签的准确度(500个图像),称之为“准确度评估”。
来自图像识别引擎的标签是否是描述每个图像的最佳匹配(2000个图像),这被称为“匹配人类描述评估”。
一、图像识别引擎标签准确度
在准确性评估中,对500张图像中的每一张,图像识别引擎的每一个标签都要评估其是否准确。有“准确、不准确和我不确定”三个选项(只有1.2%的标签被标记为“不确定”)。
这里的区别在于标签可以被判断为准确,即使它是人类在描述图像时不太可能使用的标签。例如,室外场景的图片可能被引擎标记为“全景”,并且完全准确,但仍然不是用户想要描述图像的标签之一。
考虑到这一点,下表是每个引擎的得分:
很明显,赢家是谷歌Vision(准确率81.7%),亚马逊AWS Rekognition排在第二位(准确率77.7%),微软Azure排名第三(准确率75.8%),IBM Watson排名最后(准确率55.6%)。
置信水平
以上分数涵盖每个引擎返回的所有标记。但是,每个引擎也会返回他们对每个标记的置信度的分数。这使它能够返回更具推测性的标签。以下是每个引擎的置信度得分汇总的数据:
以下是引擎具有90%或更高置信度的所有图像:
这些数据令人着迷的是,在纯粹的准确性基础上,四个引擎中的三个(亚马逊,谷歌和微软)的得分高于人类标记,最高置信度超过90%。
当我们将置信水平降至80%或更高时,让我们看看这是如何变化的:
在这个级别,我们看到“人手标记”的分数基本上与我们在亚马逊AWS Rekognition,谷歌Vision和微软Azure Computer Vision中看到的分数相同。
可以预期,给出低置信度的标签的准确性会降低,事实证明是这样的:
对于接下来的几个图表,研究人员通过图像识别引擎在许多类别的置信水平上看准确性。
亚马逊AWS Rekognition
谷歌Vision:
IBM Watson:
微软Azure Computer Vision:
在所有的引擎中,我们都可以看到,它们在分配给更高置信度分数的标签上做得更好。
二、图像识别引擎与人类的想法相匹配的程度如何?
匹配人类描述评估的不同之处在于,研究人员向用户呈现了每个引擎为每个图像提供的前五个最高置信度标签,而没有告诉他们来自哪个图像识别引擎。
然后,在2000张图像中,研究人员要求用户选择并排列他们认为最能描述图像的前五个标签。与之前的数据集不同,这里的重点是最佳匹配人类的想法。这次评估的目的是看看哪个引擎最接近这一点。
对于数据,让我们从平台的平均得分开始,总计:
如图所见,“手动标记”图像的得分远高于任何引擎。这是可以预料到的,因为手动标记的标签的图像描述是准确的。
四个图像识别引擎和人类水平之间的差距非常大。值得注意的是,四个引擎中Google Vision明显性能更高,但手动标记结果的选择频率仍远高于任何引擎给出的结果。
总之,人类仍然可以比机器API更好地识别图像,并对其他人解释自己的看法。这是因为几个因素的作用,其中包括语言的特异性、具备广阔背景知识基础的引擎常常会关注对人类没有重大意义的属性,因此虽然这些属性是准确的,但人类更有可能描述他们的感受,更准确地识别图像。
下图为按图像类型分类的分数视图:
按图像类别划分很有意思。人类手动标记的标签仍是每个类别中目标最多的标签。Google Vision在四个类别中的三类中获胜,亚马逊AWS几乎没有在任何类别中占据优势。
当引擎标签的置信度为90%以上时,四个引擎中的三个得分高于人工标注标签。
三、图像识别引擎的词汇表
本研究最有趣的发现之一就是不同平台上词汇引擎的变化情况。以下是参与比较的四个平台的原始数据,以及我们的“手动标记”结果。
当然,根据图像类型不同,词汇发生变化是自然而然的事情(详细数据以下给出)。
下图为
AWS Rekognition
的结果:
Google Vision:
IBM Watson:
微软 Azure Computer Vision:
如上所见,你可能已经注意到了,我们将数据分成了一个个单词,但不少数据标签长度都不止一个单词,而且标签的平均长度会随着不同引擎发生一定程度的变化,下图所示为每个标签下的平均单词数量。
最后,是对于每个图像识别引擎每次反应的平均字数。
每种引擎下的等级水平
总体看来,所有的引擎距离人类描述图像的方式还有很大的距离。
其他特征:IBM Watson是“艺术家”,AWS是“时尚达人”
IBM Watson最爱五颜六色:
其API具有最独特的颜色变化组合和最多的颜色种类。
Google Vision和微软Azure Computer Vision也经常提到“黄色”,但都比不上IBM Watson的“艺术家”气息。
Microsoft Azure Computer Vision可以描述图像质量:
引擎会返回“模糊”以及“像素级”的结果。
进行时词汇:
IBM Watson有112个回复以进行时“ing”结束,Amazon AWS Rekognition这样的回复结尾有62个,Microsoft Azure Computer Vision有87个,Google Vision有103个。
IBM Watson喜欢高度描述性的词语
, 并为这些词汇添加语境:pinetum(松树),牛轭(河),LED显示屏(计算机/电视),rediffusion(分布),'蔓藤花纹(装饰),'dado(骰子),'登山杖(攀登装备)。
实际上,IBM Watson在很多方面都过于极端地描述了图像。这可能导致IBM Watson面临的一些准确性上的问题。从积极方面来说,这种对高度描述性词语的关注应该使用户更容易找到与其查询请求相关的图像。
AWS Rekognition是一个“时尚达人”:
亚马逊AWS Rekognition喜欢服装。它比其他API更能识别出短裤、裤子和衬衫。
Google喜欢猫,IBM Watson喜欢狗:
谷歌更善于识别出猫的品种,IBM Watson更善于识别出狗的品种,并对它们有更具体的了解,甚至可以具体到“德国短毛指针犬”。Microsoft Azure在猫的识别上仅次于Google Vision,位居第二。
总结
很明显,Google Vision是这场比拼中的赢家,在原始精度和与人类描述图像的一致性上处于领先。
IBM Watson在测试中排名最后,但应该注意到IBM Watson在自然语言处理方面表现优异,而NLP这不是本研究的重点。它是迄今为止唯一一家为自定义NLP模型创建构建完整GUI的主要AI供应商,Watson平台不仅允许分类,还允许通过该GUI提取自定义实体。
同样令人兴奋的是,当置信度大于90%时,四个引擎中的三个引擎的原始精度得分要高于人类手动标记。 这是图像识别引擎性能和发展潜力的强有力的证明。不过,从图像识别引擎以类似人类的方式描述图像,并以此进行图像标记的表现来看,未来还有很长的路要走。
原文链接:
https://www.perficientdigital.com/insights/our-research/image-recognition-accuracy-study
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
5
小刘的书
2022-7-14 08:37:26
显示全部楼层
等华为来你们就知道谁最强了,水军如海啸般
回复
使用道具
举报
公子纸鸢
2022-7-14 08:37:55
显示全部楼层
中国四小龙在这个领域应该能吊打美帝四大天王吧
回复
使用道具
举报
2420437781
2022-7-14 08:38:29
显示全部楼层
转发了
回复
使用道具
举报
wolf123456
2022-7-16 07:58:57
显示全部楼层
为毛老子总也抢不到沙发?!!
回复
使用道具
举报
猪麦_
2022-7-17 07:03:24
显示全部楼层
占位编辑
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
zengli88
高级会员
0
关注
0
粉丝
107
帖子
Ta的主页
发布
加好友
最近发表
中关村论坛笔记④|人形机器人离量产还有多远?
什么是人形机器人真正的问题,头部大佬这么看……
你以为很贵,但实际却很便宜的智能家居,人生格局一下子打开了
33款扫地机器人口碑:售价6350元的戴森口碑垫底,小米、科沃斯谁
2024北京车展| 机构:无人驾驶技术将开始新一轮应用探索
打造无人驾驶、智能机器人全时巡检……北京将有人工智能街区了
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们