找回密码
 立即注册
搜索

图像识别:只有你想不到,没有它做不到!

图像识别是个啥?
在不同时期,图像识别指代的内容有所不同。人工智能大行其道的今天,当人们谈到图像识别,很可能指的是计算机视觉(Computer Vision)领域的部分工作。来自维基百科的定义说,计算机视觉包括对数字图像的acquiring, processing, analyzing 以及understanding。计算机视觉大致从70年代开始发展,前面的任务已经做的很不错了,最后一道难关就是understanding,也就是今天人们常说的图像识别

什么叫understanding呢?不同人有不同的定义,现在主流的做法就是让计算机回答问题。视觉领域有几类重要的问题,包括:
  • 这是不是一条狗?(是或否二选一)
  • 这是什么物体?(从1000类中选择)
  • 狗在图中的哪里?(需要在图片中框出来)
  • 图里都有什么?(类似看图说话,例如“一个男孩在沙滩上玩耍”)
如果能正确地回答(例如99%正确率)相应的问题,那么计算机就被认为具有相应水平的理解图像的能力。问题是谁出的呢?人来出的。例如ImageNet  数据集上有人类标注好的1000个类别共100多万张图片。
这几类问题近几年有重大突破,突破的核心技术就是深度神经网络。从前人们根据人体骨骼提炼出了几十个关键特征来做人脸识别,做的有一定成果,但是同样的方法无法应用到其他物体的识别中去。深度神经网络的优点之一是end to end,也就是只依赖于标注数据。寻找特征变量难以在1000个类别的识别中奏效,但标注好1000个类别的数据这项工作已经做好了。
总结一下,从前的方法只能做第一类问题。现在的深度神经网络已经将第二类问题做到了97.3%的准确率(人类只有95%准确率)。例如,阿里云提供的图像识别服务,其中一项可给图像打标。

图:物品识别(来源:阿里云产品说明)

第三类问题也几乎完成(最新的无人驾驶需要这类问题)。百度云提供了图像主体检测服务,可以检测图像中物体的位置,还能计算出距离。

图:图像主体检测(来源:百度云产品说明)

第四类问题有不少学者正在研究,由于很难定义什么样的回答好,第四类问题的进展比较慢。
图像识别的应用
如今,图像识别已经不再讳莫如深,在许多领域中衍生出有趣的应用和服务。下面小编就给大家逐一介绍一下。

1
当图像识别遇到社交娱乐

还记得十多年前的傻瓜相机么?那个时候的相机可以在显示屏中将人脸用方框框出来以便更好的聚焦。那个方框其实就是图像识别中的人脸检测的技术。而现在的手机相机已经不仅仅可以捕捉人脸,还可以进行五官定位,实现人脸美颜上妆,轻松在眼睛、鼻子等位置准备添加贴纸的功能。

图:贴纸照片(来源:阿拉蕾微博)

小米手机4具备一项特别好玩的功能。在自拍的时候,你会发现相机可以自动识别出你的性别和年龄,这个功能与微软推出的How-Old.net网站有点类似。

图:小米4自拍时能自动识别出性别和年龄

(来源:搜狗图片)

在测试年龄的黑科技How-Old.net火不久之后,他们又推出一款新的有趣的应用----TwinsOrNot.net,即任意上传两张图片,可以知道他们之间长的有多相似。利用这款应用,你可以知道你是否拥有一张明星脸哦。虽然这些应用的结果会受到光线、拍摄角度等的影响导致结果不准确,但这些应用给人们增加了很多乐趣,人们对其的追捧正是人脸识别技术和社交网络碰撞形成的化学反应。

图:TwinsOrNot.net测试两人的相似程度(

2
当图像识别遇到公共安全

图像识别系统除了可以应用在日常生活当中,还可以帮助公安破案。公共安全方面的人脸识别技术往往会应用于两个方面,一种是在事件发生后,调取监控图像,识别出其中的人脸信息和已知的目标库中的人脸信息进行比对。另一种是监控犯罪嫌疑人的行动,进行动态的监控。
这样的技术在中国已经得到了成熟的运用,不知道大家是不是熟悉大名鼎鼎的“天网”——世界上最大的视频监控系统。你知道天网都可以看到什么吗?在天网的实时行人检测识别系统中,可以准确的识别出机动车、非机动车和行人,甚至能够分辨出机动车和非机动车的种类,行人的年龄、性别和穿着等。虽然网友们对这项技术褒贬不一,不可否认的是,它真的在为打击犯罪,保护公民的生命财产安全做着贡献。有了天网这样的系统,电影中的场面真正的照进了现实。

图:电影《碟中谍4》

3
当图像识别遇到日常生活

图像识别的另一个应用---文字识别,做得也相当成熟。其中车牌号的识别就属于文字识别的一种,而这种技术已经广泛的应用于我们的日常生活之中了。当我们进出某个停车场的时候就会发现,门禁系统会自动识别出车牌号码,并且计算停车时间。
而万能的支付宝也上线了相关的新功能,将车牌号与支付宝账号绑定以后,即可开通“车牌付”的功能。在高速收费站可以“扫车牌”自动支付费用,在这一过程中不需要掏出手机,支付宝会在后台自动扣费,十分的方便快捷。目前河南省和陕西省的部分收费站均可以使用这一功能。不知道各位新手司机有没有过这样的体验:由于经验不足,无法正确估量出车距离缴费窗口的距离,而无奈下车缴费的情况?“车牌付”功能的出现,对于这样的新手司机来说是福音吧!

图:高速收费站通过扫车牌可自动支付(来源:映象网)

4
当图像识别遇到艺术

你能想象人工智能会与艺术摩擦碰撞出怎样的火花么?
如果我们给出这样的两幅图像,其中一副为内容图像(如下左图),另一幅为风格图像(如下右图)。通过使用图像风格转换的算法,就可以得到合成图,即将图像内容和图像风格完美的结合在一起。事实上,美图秀秀就具有风格转换的功能,只是图像转换的风格只能是限定的几种。腾讯在QQ空间中也推出了一款类似的图像风格转换应用,可以给图像提供各种转换风格,梵高、莫奈风格的画风任君挑选。

5
当图像识别遇到医疗技术

医疗永远都是人们最关心的问题之一,那么图像识别又是否能够在医疗领域中大展拳脚呢?熟悉机器学习领域的小伙伴,一定很熟悉吴恩达这个人。吴恩达团队在arXiv上面发表了他们关于医疗领域的科研成果,即提出了可以用来进行肺炎检测的算法CheXNet。这是一个121层的卷积神经网络,可以通过对胸部的X光片诊断病人是否患有肺炎,它的诊断准确率已经超出了行业的平均水平。
事实上,通过X光片来判断患者时候患有肺炎并不是一件十分轻松的事情,因为很多的X光片上面的肺炎特征十分不明显。这会导致不同的医师很可能针对同一张X光片做出不同的判断。为了评测CheXNet的表现,有四位专业的执业医师,挑选出了420张X光片,交给其余医师和CheXNet来进行判断。实验结果证明,CheNet的准确率要明显高于其余医师。这个实验在一定程度上说明机器的诊断在某些方面上可能比人的诊断更加的准确。

在未来,当这种技术可以更加成熟稳定地应用和进行推广的时候,或许,看病难的问题可以在一定程度上得到缓解。这种技术可以帮助医生加快诊断速度和准确程度,甚至在一定的程度上实现患者自诊。
未来的奇妙生活
随着深度学习的发展和技术的不断完善,除了已经出现的智能化的应用外,未来还会发生什么不可思议的事情呢?小编曾经看到过一个未来生活的宣传片中的一幕,小朋友拿出手中电脑对着原始森林中的动物脚印扫描,就可以显示出它对应的动物。即使这种动物灭绝了,它依然可以活灵活现的显示出来,这样的未来生活是不是很酷!

未来的图像识别究竟还可以逆天到什么程度,想象中的就如同科幻小说里描述的未来生活都可以实现么,真的是让人拭目以待呢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies