什么是图像辨认？图像辨认是如何完成的？

月藏莲心 · 2020-9-22 18:34:12

当我们看到一个东西，大脑会迅速判别是不是见过这个东西或者相似的东西。这个过程有点儿像搜索，我们把看到的东西和记忆中相反或相类的东西停止婚配，从而辨认它。机器的图像辨认也是相似的，经过分类并提取重要特征而扫除多余的信息来辨认图像。

归根结底，机器的图像辨认和人类的图像辨认原理相近，过程也大同小异。只是技术的提高让机器不但能像人类一样认花认草认物认人，还末尾拥有超越人类的辨认才能。

图像辨认概述

图像辨认是人工智能的一个重要范畴，是指应用计算机对图像停止处理、分析和了解，以辨认各种不同形式的目的和对像的技术，并对质量不佳的图像停止一系列的加强与重建技术手腕，从而有效改善图像质量。

明天所指的图像辨认并不只仅是用人类的肉眼，而是借助计算机技术停止辨认。虽然人类的辨认才能很弱小，但是对于高速发展的社会，人类本身辨认才能曾经满足不了我们的需求，于是就产生了基于计算机的图像辨认技术。

这就像人类研讨生物细胞，完全靠肉眼观察细胞是不理想的，这样自然就产生了显微镜等用于准确观测的仪器。通常一个范畴有固有技术无法处理的需求时，就会产生相应的新技术。图像辨认技术也是如此，此技术的产生就是为了让计算机代替人类去处理大量的物理信息，处理人类无法辨认或者辨认率特别低的信息。

普通工业运用中，采用工业相机拍摄图片，然后再应用软件根据图片灰阶差做进一步辨认处理。随着计算机及信息技术的迅速发展，图像辨认技术的运用逐渐扩展到诸多范畴，尤其是在面部及指纹辨认、卫星云图辨认及临床医疗诊断等多个范畴日益发挥着重要作用。

通常图像辨认技术次要是指采用计算机按照既定目的对捕获的系统前端图片停止处理，在日常生活中图像辨认技术的运用也非常普遍，比如车牌捕捉、商品条码辨认及手写辨认等。随着该技术的逐渐发展并不断完善，将来将具有愈加广泛的运用范畴。

图像辨认以开放API（Application Programming Interface，运用程序编程接口）的方式提供给用户，用户经过实时访问和调用API获取推理结果，协助用户自动采集关键数据，打造智能化业务系统，提升业务效率。

图像辨认原理

图像辨认的发展阅历了三个阶段：文字辨认、数字图像处理与辨认、物体辨认。

· 文字辨认的研讨是从 1950年末尾的，普通是辨认字母、数字和符号，从印刷文字辨认到手写文字辨认，运用非常广泛。

· 数字图像处理和辨认的研讨末尾于1965年。数字图像与模拟图像相比具有存储，传输方便可紧缩、传输过程中不易失真、处理方便等宏大优势，这些都为图像辨认技术的发展提供了弱小的动力。

· 物体的辨认次要指的是对三维世界的客体及环境的感知和看法，属于高级的计算机视觉范畴。它是以数字图像处理与辨以为基础的结合人工智能、系统学等学科的研讨方向，其研讨成果被广泛运用在各种工业及探测机器人上。

图像辨认原理次要是需处理具有一定复杂性的信息，处理技术并不是随意出如今计算机中，结合计算机程序对相关内容模拟并予以完成。图像辨认的过程归纳起来次要包括4个步骤：

· 获取信息：次要是指将声响和光等信息经过传感器向电信号转换，也就是对辨认对象的基本信息停止获取，并将其向计算机可辨认的信息转换。

· 信息预处理：次要是指采用去噪、变换及平滑等操作对图像停止处理，基于此使图像的重要特点提高。

· 抽取及选择特征：次要是指在形式辨认中，抽取及选择图像特征，概括而言就是辨认图像具有种类多样的特点，如采用一定方式分离，就要辨认图像的特征，获取特征也被称为特征抽取；在特征抽取中所得到的特征也许对此次辨认并不都是有用的，这个时分就要提取有用的特征，这就是特征的选择。特征抽取和选择在图像辨认过程中是非常关键的技术之一，所以对这一步的了解是图像辨认的重点。

· 设计分类器及分类决策：其中设计分类器就是根据训练对辨认规则停止制定，基于此辨认规则可以得到特征的次要种类，进而使图像辨认的不断提高辨识率，此后再经过辨认特殊特征，最终完成对图像的评价和确认。

在计算机停止的图像辨认中，计算机首先就可以完成图像分类并选出重要信息、扫除冗余信息，根据这一分类计算机就可以结合本身记忆存储结合相关要求停止图像的辨认，这一过程本身与人脑辨认图像并不存在着本质差别。对于图像辨认技术来说，其本身提取出的图像特征直接关系着图像辨认能否获得较为称心的结果。

值得留意的是，由于计算机归根结底不同于人类的大脑，所以计算机提取出的图像特征存在着不波动性，这种不波动性往往会由于计算机提取图像特征的分明与普通影响图像辨认的效率与准确性，由此可见图像特征对于AI中图像辨认技术的重要意义。

图像辨认技术

计算机的图像辨认技术就是模拟人类的图像辨认过程，在图像辨认的过程中停止形式辨认是必不可少的。简单地说，计算机的形式辨认就是对数据停止分类，它是一门与数学严密结合的迷信，其中所用的思想大部分是概率与统计。形式辨认次要分为三种：统计形式辨认、句法形式辨认、模糊形式辨认。

对于当下AI+时代的图像辨认技术来说，神经网络的图像辨认与非线性降维的图像辨认是最为常见的两种图像辨认技术。

基于神经网络的图像辨认：

神经网络图像辨认技术是一种比较新型的图像辨认技术，是在传统的图像辨认方法和基础上交融神经网络算法的一种图像辨认方法。这里的神经网络是指人工神经网络，也就是说这种神经网络并不是动物本身所具有的真正的神经网络，而是人类模拟动物神经网络后人工生成的。在神经网络图像辨认技术中，遗传算法与BP网络相交融的神经网络图像辨认模型是非常经典的，在很多范畴都有它的运用。

在图像辨认系统中应用神经网络系统，普通会先提取图像的特征，再应用图像所具有的特征映射到神经网络停止图像辨认分类。以汽车拍照自动辨认技术为例，当汽车经过的时分，汽车本身具有的检测设备会有所感应。此时检测设备就会启用图像采集安装来获取汽车正反面的图像。获取了图像后必须将图像上传到计算机停止保存以便辨认。最后车牌定位模块就会提取车牌信息，对车牌上的字符停止辨认并显示最终的结果。在对车牌上的字符停止辨认的过程中就用到了基于模板婚配算法和基于人工神经网络算法。

基于非线性降维的图像辨认：

计算机的图像辨认技术是一个异常高维的辨认技术。不管图像本身的分辨率如何，其产生的数据常常是多维性的，这给计算机的辨认带来了非常大的困难。想让计算机具有高效地辨认才能，最直接有效的方法就是降维。降维分为线性降维和非线性降维。例如主成分分析(PCA)和线性奇特分析(LDA)等就是常见的线性降维方法，它们的特点是简单、易于了解。但是经过线性降维处理的是全体的数据集合，所求的是整个数据集合的最优低维投影。

经过验证，这种线性的降维策略计算复杂度高而且占用相对较多的工夫和空间，因此就产生了基于非线性降维的图像辨认技术，它是一种极其有效的非线性特征提取方法。此技术可以发现图像的非线性结构而且可以在不毁坏其本征结构的基础上对其停止降维，使计算机的图像辨认在尽量低的维度上停止，这样就提高了辨认速率。例如人脸图像辨认系统所需的维数通常很高，其复杂度之高对计算机来说无疑是宏大的“灾难”。由于在高维度空间中人脸图像的不平均分布，使得人类可以经过非线性降维技术来得到分布紧凑的人脸图像，从而提高人脸辨认技术的高效性。

在AI范畴之中，图像辨认技术占据着极为重要的地位，而随着计算机技术与信息技术的不断发展，AI中的图像辨认技术的运用范围不断扩展：IBM的Watson医疗诊断、各种指纹辨认、及常用的支付宝的面部辨认以及百度地图中全景卫星云图辨认等都属于这一运用的典型，AI这一技术曾经运用于日常生活之中，图像辨认技术将来定会有着较为广泛的运用。

图像辨认的运用

移动互联网、智能手机以及社交网络的发展带来了海量图片信息，不受地域和言语限制的图片逐渐取代了繁琐而巧妙的文字，成为了传词达意的次要媒介。但伴随着图片成为互联网中的次要信息载体，难题随之出现。

当信息由文字记载时，我们可以经过关键词搜索随便找到所需内容并停止恣意编辑，而当信息是由图片记载时，我们却无法对图片中的内容停止检索，从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式，却降低了我们的信息检索效率。在这个环境下，计算机的图像辨认技术就显得尤为重要。

图像辨认初级运用：次要是文娱化、工具化，在这个阶段用户次要是借助图像辨认技术来满足某些文娱化需求。例如，百度魔图的“大咖配”功能可以协助用户找到与其长相最婚配的明星，百度的图片搜索可以找到相似的图片；Facebook研发了根据相片停止人脸婚配的DeepFace；雅虎收买的图像辨认公司IQ Engine开发的Glow可以经过图像辨认自动生成照片的标签以协助用户管理手机上的照片；国内专注于图像辨认的创业公司旷视科技成立了VisionHacker游戏工作室，借助图形辨认技术研发移动端的体感游戏。

这个阶段还有一个非常重要的细分范畴 —— OCR（Optical Character Recognition，光学字符辨认），是指光学设备检查纸上打印的字符，经过检测暗、亮的形式确定其外形，然后用字符辨认方法将外形翻译成计算机文字的过程，就是计算机对文字的阅读。

借助OCR技术将这些文字和信息提取出来。在这方面，国内产品包括百度的涂书笔记和百度翻译等；而谷歌借助经过DistBelief 训练的大型分布式神经网络，对于Google 街景图库的上千万门牌号的辨认率超过90%，每天可辨认百万门牌号。

图像辨认初级运用仅作为我们的辅助工具存在，为我们本身的人类视觉提供了强有力的辅助和加强，带给了我们一种全新的与外部世界停止交互的方式。这些运用虽然看起来很普通，但当图像辨认技术浸透到我们行为习气的方方面面时，我们就相当于把一部分视力外包给了机器，就像我们曾经把部分记忆外包给了搜索引擎一样。

这将极大改善我们与外部世界的交互方式，此前我们应用科技工具探寻外部世界的流程是这样：人眼捕捉目的信息、大脑将信息停止分析、转化成机器可以了解的关键词、与机器交互获得结果。而当图像辨认技术赋予了机器“眼睛”之后，这个过程就可以简化为：人眼借助机器捕捉目的信息、机器和互联网直接对信息停止分析并前往结果。图像辨认使摄像头成为解密信息的钥匙，我们仅需把摄像头对准某一未知事物，就能得到预想的答案，摄像头成为衔接人和世界信息的重要入口之一。

图像辨认的高级运用：成为拥有视觉的机器，当机器真正具有了视觉之后，它们完全有能够代替我们去完成这些举动。目前的图像辨认运用就像是盲人的导盲犬，在盲人举动时为其指引方向；而将来的图像辨认技术将会同其别人工智能技术交融在一同成为盲人的全职管家，不需求盲人停止任何举动，而是由这个管家协助其完成一切事情。

举个例子，假如图像辨认是一个工具，就好像我们在驾驶汽车时佩戴谷歌眼镜，它将外部信息停止分析后传递给我们，我们再根据这些信息做出行驶决策；而假如将图像辨认应用在机器视觉和人工智能上，这就好像谷歌的无人驾驶汽车，机器不只可以对外部信息停止获取和分析，还全权担任一切的行驶活动，让我们得到完全解放。

图像辨认并非一个新范畴，但放眼全局，它仍处于早期阶段。就像任何一个典型的长大中少年一样，在顺应理想世界时也存在成绩。图像辨认是计算机视觉时代到来的早期征兆，无论它将如何运用或将运用于哪些行业，图像辨认技术永远不能够孤立发展。只要经过访问更多图片，实时数据，花费更多的工夫和精神才能使其愈加弱小；只要看法到这一点，并充分应用这些联络的企业才能够在将来获得成功。

作为一门科技含量较高的新兴技术，AI的图像辨认技术曾经与用户的生活严密结合在一同，许多科技巨头也末尾了在图像辨认和人工智能范畴的规划：

Facebook签下的人工智能专家Yann LeCun最严重的成就就是在图像辨认范畴，其提出的LeNet为代表的卷积神经网络，在运用到各种不同的图像辨认义务时都获得了不错效果，被以为是通用图像辨认系统的代表之一；Google 借助模拟神经网络“DistBelief”经过对数百万份 YouTube 视频的学习自行掌握了猫的关键特征，这是机器在没有人协助的状况下本人读懂了猫的概念。值得一提的是，担任这个项目的Andrew NG曾经转投百度指导百度研讨院，其一个重要的研讨方向就是人工智能和图像辨认。这也能看出国外科技公司对图像辨认技术以及人工智能技术的注重程度。

为什么有数十亿美元投入到这项技术？缘由是图像辨认潜力宏大。图像辨认是一个非常笼统的范畴。但是，当运用于详细情境时，其改变企业的潜力是无可辩驳的。图像辨认技术，衔接着机器和这个一无所知的世界，协助它越发了解这个世界，并最终代替我们完成更多的义务。

文章来源：http://www.eepw.com.cn/article/202008/417486.html

鹿泉烟火 · 2020-9-23 07:12:32

啥也不说了，大佬，给你个赞

莱克星顿的枪声 · 2020-9-24 07:12:20

元芳你怎么看？

小福猪 · 2020-9-24 19:54:01

无论是不是沙发都得回复下

		自动登录	找回密码
密码			立即注册

什么是图像辨认？图像辨认是如何完成的？

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们