CIIS 2019 演讲实录丨刘成林：文档图像辨认技术停顿与运用

babypet · 2019-12-2 17:01:15

10月26日-27日，由陕西省委网信办、陕西省工业和信息化厅、陕西省迷信技术厅指点，中国人工智能学会主办，西安市委网信办、西安市迷信技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”--西安举行。在27日举行的视觉感知技术与运用前沿论坛上，CAAI形式辨认专委会主任、中科院自动化研讨所副所长、研讨员、IEEE/IAPR/CAAI Fellow 刘成林为我们带来了题为“文档图像辨认技术停顿与运用”的精彩演讲。

刘成林 CAAI形式辨认专委会主任中科院自动化研讨所副所长、研讨员 IEEE/IAPR/CAAI Fellow

以下是刘成林的演讲实录：

明天的论坛主题是视觉感知，视觉感知有很多不同的场景，不同场景的数据有不同的特点，文档图像是一类比较特殊的视觉数据，也有很广泛的用途。文档图像辨认也称为文字辨认，这外面技术的外延和运用前景都是非常丰富的。我首先引见一下文字辨认的背景，如今普通把它叫文档分析与辨认，过去讲的文字辨认是单个字的辨认，那叫文字辨认没有成绩，但我们实践碰到的状况都是一整页纸，在一张图片里，首先要把文字在什么地方提取出来，然后才能辨认。文档分析和辨认的目的，就是把图像外面的文字，从图像方式，转成电子文本，让计算机可以了解它是什么意思。

文档是载有文字符号的纸张、图像或者电子文件。一大类文档是书籍、报纸、杂志、档案等纸张文档。过去普通是经过扫描得到文档图像，如今越来越多的图像是拍照的，不只要拍照纸张文档，也有很多自然场景文档（如标识、标牌、车牌等）。另一类是合成文档，比如合成一个电子图像，或者在手写的过程当中用数码笔采集的笔划轨迹数据（称为联机手写文档），原来是没有的，所以也把它当成是合成文档。文档辨认范畴次要处理文档图像（联机手写文档也可以看做是一种图像）。如今越来越多的文档是经过拍照成像，包括金融范畴的票据、单据、证件照等。跟扫描相比，拍照图像的视角、光照变化、形变等导致图像分析辨认更困难。明天第一个报告肖京先生提到他们处理保险单、票据等，都是手机拍照当前传到网上去，在网上停止处理。目前这种业务处理方式越来越普遍。

图1. 文档类型

文档处理流程次要有这么几个阶段。扫描或拍照成像当前，首先是版面分析，把文本区域定位分割出来，下一个次要义务就是对文本行停止处理。传统方法希望把每个文字切分出来辨认单个文字，但是字符切分是非常困难的，尤其手写字符大小、间隔不平均，字间有粘连，汉子多部首等，导致字符间边界很难确定。因此，切分和辨认是不能分开停止的，如今基本上是把整个文本行停止辨认，同时停止字符切分和辨认，这又称为字符串辨认。

这个流程里四个阶段，从图像处理到版面分析，到内容辨认，最后到语义分析和运用，每个阶段都有大量的技术成绩。最重要的两个步骤是版面分析和内容辨认。版面分析分割图像外面的不同区域，包括文本区域和非文本区域，文本区域分割为段落和文本行。内容辨认除了传统的文字辨认之外还有其他的，比如说图形、公式、印章等。

图2. 文档分析的步骤和相关技术成绩

文字辨认范畴的历史基本上是和形式辨认、人工智能范畴同步，从上世纪50年代、也就是电子计算机出现当前发展起来的。从早期的单字辨认到后来的词辨认、文本行辨认，都有很多的难点，也发展了很多有效的方法。

下面概述一下文档辨认外面次要的方法。

图像的预处理是为了改善图像质量，或者停止二值化，区分文字与背景。对于噪声图像的二值化，提出了很多从简单到复杂的方法，如今可以用深度神经网络（如全卷积网络）直接对像素停止分类。预处理中外形矫正也很重要，比如拍照的图像，对它的变形、光照、暗影等矫正后得到比较规范、明晰的图像。

版面分析是非常重要的一个阶段，其方法可分为两大类：自上而下和自下而上。自上而下的方法把图像从大到小停止划分，直到每个区域对应某一类对象，比如说这个区域外面都是文字，这个区域外面都是某一类图形。代表性的自上而下方法如投影法和X-Y Cuts。自下而上的方法从图像基本单元（像素、连通成分）从小到大聚合为文本行和区域，对图像旋转、变形、不规则区域等具有更强的顺应才能。比如手写文档中，手写文本行有倾斜、弯曲，行之间挨得近，用投影法就很难分开，需用自下而上的聚类方法停止分割。经典的自下而上方法如DocStrum（文档谱）、Voronoi图方法等。最近的趋向是用深度神经网络或概率图模型停止版面分析。这是我们最近提出的一个方法，用条件随机场对连通成分停止分类，底层特征提取和分类用卷积神经网络，可以区分文档中文本和非文本，文本区域进一步分为印刷和手写文本。

对于比较复杂的图像，比如复杂背景或噪声严重干扰的图像，很难用二值化去掉背景，那就可以用全卷积神经网络经过像素分类来区分背景和前景，分割文本、图形等区域。我们最近对全卷积神经网络方法做了一些改进，用多层次标号数据停止训练，可以分割挨得很近的手写文本行，并分割不同类型的区域，如手写文本、印刷文本、图形、表格等。

场景文本检测可以看成一个特殊的版面分析成绩。如今互联网（包括社交网如微信、微博）上有大量用户上载的图片，检测和辨认其中的文字有宏大的用途，最近10年是非常热的研讨方向，提出了很多方法。一类是基于文字的方法，先检测文字或连通成分，聚合成文本行，这也可以看成是自下而上的方法；第二类是直接对文本行全体停止检测，比如这个基于全卷积网络的直接回归方法，可直接估计恣意方向文本行的边界。最近很多研讨针对弯曲文本行的检测和辨认，也有很多方法，比如TextSnake方法在提取连通成分之后，用所谓的弹性外形的方法得到文本行；这个基于自顺应区域表示的方法对文本行的边界进举动态调整，可以得到任不测形轮廓的文本行的地位。

下面重点讲文字辨认和文本辨认。早期次要做单个文字的辨认，过去研讨中对外形归一化、特征提取和分类提出了大量的方法，对于普通的手写汉字辨认最好做到90%左右正确率。如今用深度神经网络，用大量样本训练，辨认精度远远超过了传统方法。那么是不是传统方法就没有用了呢？其实还是有用的，比如用梯度方向特征图作为卷积神经网络的输入用于手写文字辨认，可得到更高的精度同时网络复杂度较低，还不需求特别多的训练样本。

我们如今辨认的目的次要对整个文本行停止辨认，由于切分和辨认很难分开停止。那么我们研讨单字辨认器有没有用？还是有用的，如今一个基本的文本行辨认方法是基于过切分或者候选切分网格的方法，比如这个文本行有四个文字，你不知道应该从哪里切分，可以用一个单字辨认器，对每个侯选文字停止辨认，得出一个置信度，最后根据这个置信度在候选网格中搜索最优途径，给出最终切分和辨认结果，这里单字辨认器的功能至关重要。英文手写辨认中次要用隐马尔科夫模型，这是一种隐式切分的方法。如今长短时记忆递归神经网络（LSTM-RNN）在英文、阿拉伯文手写文本辨认中成了主流，用于场景文本辨认也基本是最好的方法。

图3. 候选切分网格

我们最近提出一种基于滑动窗分类的文本行辨认方法，用滑动窗做动态的文字检测，这相似过切分的方法。这个方法在场景文本辨认中获得了跟其他最好方法相当的功能，而模型复杂度比RNN低很多，可以很容易地推行到大类别字符集的中文手写和场景文本辨认。

除了文字和文本之外，图像中各种图形符号的辨认也很重要。如今手写文字辨认精度非常高了，在运用中文字以外的图形符号也有重要的意思，比如表格、数学公式、流程图、工程图、签名、印章等。公式辨认是一个很难的成绩，有大量的研讨，最近采用深度神经网络（尤其是留意网络）对手写公式辨认获得了很大提高，但是辨认率还不是很高。

刚才引见了一些文档分析与辨认的次要方法，那么如今文档辨认的功能达到了什么程度呢？先看看英文和法文手写文本辨认的功能。有两个比较通用的数据库，英文的IAM和法文的RIMES，这是一些样本示例。去年国际手写辨认前沿会议（ICFHR）上的一篇文章报告了一些最好方法的辨认率。普通用词错误率（WER）和字错误率（CER）来衡量。输入文本行（没有分词），没有词典的状况下，英文IAM数据集上最好的结果是WER为17.82%，CER为5.7%；法文RIMES数据集上最好的结果是WER为9.6%，CER为2.3%。

中文手写辨认中比较通用的数据库是中科院自动化所发布的CASIA联机和脱机手写样本库，包括手写单字样本和段落、文本行样本。应用此样本库，2011年和2013年国际文档分析与辨认会议（ICDAR）举行了两次中文手写辨认竞赛。这是在2013年竞赛测试集上一些代表性结果，包括竞赛结果和后来论文中发表的一些结果。单字辨认中，最好的功能都是卷积神经网络（CNN）产生的，目前联机手写汉字（3755类）最高辨认率为98.15%，脱机手写单字辨认正确率97.30%。

图4. CASIA-OLHWDB和CASIA-HWDB数据集中的手写单字样本示例（左：联机，右：脱机）

图5.CASIA-HWDB数据集中手写文本图像示例

中文手写文本行辨认的功能用字符正确率（测试集中一切字符被正确辨认的比率）来衡量。这是在2013年竞赛测试集上一些代表性的辨认结果。脱机手写文本行辨认结果是用的过切分方法，其中分类器用的CNN，目前最高正确率为96.32%，中科院自动化所报告的。联机手写文本行辨认最好辨认结果是华南理工大学报道的，字符正确率96.58%。早在2013年竞赛中，联机手写文本行辨认的字符正确率就达到了95.03%，用的是过切分方法加多层神经网络分类器。

手写数学公式辨认普通用CROHME（联机手写数学公式辨认竞赛）数据集，用CROHME 2014训练集做训练，COHME 2013测试集做验证，CROHME 2014测试集和CROHME 2016测试集作评价。把联机手写笔迹转换成图像，可做脱机手写公式辨认实验。目前报道的结果，CROHME 2014测试集上联机辨认最高正确率61.16%，脱机手写公式辨认最高正确率47.06%。

下面我们看看文档辨认技术运用状况。这是大家最关怀的，到底能用在什么地方，用的怎样样。

传统的文档辨认运用场景包括印刷文档数字化、邮政分拣、票据辨认、联机手写文字辨认（次要是单字辨认）。过去脱机手写字符辨认的成功运用不多，次要是印刷体辨认。

当前，手写文本辨认功能大幅提升，末尾进入适用阶段。各种票据的辨认末尾推行，拍照文档（包括票据、卡证等）越来越多。手写作文辨认、法律文档和档案辨认末尾推行。车牌辨认从正面图像辨认到恣意角度辨认，运用场所从道路扩展到停车场、网上保险理赔等。智能手机软件可以对文档拍照辨认并翻译。互联网上巨量图片中文字信息的提取可用自动文本检测辨认技术。除了文档图像中的文字，表格、公式、图形符号等的辨认末尾遭到注重。

如今我们看一些典型运用场景的辨认例子。这些图片由中科阅深科技公司（中科院自动化所与汉王科技有限公司合资成立的文档辨认技术公司）提供。车牌辨认方面，恣意方向视角图片中，车牌检测正确率98%以上，辨认正确率97%以上。金融票据辨认中，手写金额、单位名、人名等可以正确辨认。图像中多种卡证混合的状况下，可自动检测定位卡证并分割、分类。中先生作文辨认字符正确率平均98%以上。法律文档中可自动分析表格结构、辨认文本内容，支持自动判案、理赔等。印章检测分割可以处理与文字高度堆叠的印章。

以上我们看出，文档辨认技术有了很大发展，尤其是手写文档辨认技术曾经可以适用。但是现有技术还有一些不足，需求进一步研讨提高。对文本辨认而言，现有深度学习方法依赖大量标记样本训练；文本辨认精度有很大提高，但是达不到100%，那么为了检查修正错误，能否把置信度低的字符自动标记出来（也就是拒识），这个目前还很难。字符结构分析在有些场合有重要运用，文本语义分析还做得不够。版面分析方面，版式变化太多，尚无普适性的表示分析方法。表格分析中，无框线表格的分析是难点。手写公式辨认正确率还比较低，等等。

最后，展望一下将来技术发展和运用前景。技术上，版面分析研讨有新停顿，比如基于基元检测和关系分析，具有较好的版面顺应性；流程图、公式辨认需求愈加注重；文本整页辨认（无需文本行分割）方法值得探求，即便短期内难以达到适用，这种研讨有助于推进技术发展。文本辨认方面，弱监督学习值得探求，字符定位、置信度估计和拒识需求注重；字符结构分析要加强研讨。运用方面，已有的运用将不断提高检测辨认精度，并且系统开发定制将更高效。新的运用场景将不断推行，如教育、医疗、古籍数字化、考古、数字人文、文明旅游等，都可以开发很多的运用。

谢谢大家！欢迎交流讨论！

（本报告根据速记整理）

CAAI原创丨作者刘成林

未经授权严禁转载及翻译

如需转载合作请向学会或本人央求

分享请注明转自中国人工智能学会

780548597 · 2019-12-3 07:44:41

我是个凑数的。。。

fr6ey3 · 2019-12-4 11:17:29

一点毛病没有，顶你

你好呀哦我好 · 2019-12-5 09:31:45

沙发位出租，有意请联系电话：13888888888

		自动登录	找回密码
密码			立即注册

CIIS 2019 演讲实录丨刘成林：文档图像辨认技术停顿与运用

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们

CIIS 2019 演讲实录丨刘成林：文档图像辨认技术停顿与运用​

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们

CIIS 2019 演讲实录丨刘成林：文档图像辨认技术停顿与运用