语音辨认片面进入CNN时代：会读“语谱图”的全新语音辨认框架

最最最吃货 · 2019-2-17 06:48:49

新智元引荐1

科大讯飞授权转载

作者：讯飞研讨院

近年来，人工智能和人类生活越来越毫不相关，人们不断憧憬身边可以出现一个真正的贾维斯，希望有一天计算机真的可以像人一样能听会说，能了解会思索。而完成这一目的的重要前提是计算机可以准确无误的听懂人类的话语，也就是说高度准确的语音辨认系统是必不可少的。

作为国内智能语音与人工智能产业的指导者，科大讯飞公司不断引领中文语音辨认技术不断提高。去年12月21日，在北京国家会议中心召开的以“AI复始，万物更新”为主题的年度发布会上，科大讯飞提出了以前馈型序列记忆网络(FSMN, Feed-forward Sequential Memory Network)为代表的新一代语音辨认系统，让大家眼前一亮[1]。

经过进一步的研讨，我们在FSMN的基础之上，再次推出全新的语音辨认框架，将语音辨认成绩创新性的重新定义为“看语谱图”的成绩，并经过引入图像辨认中主流的深度卷积神经网络(CNN, Convolutional Neural Network)完成了对语谱图的全新解析，同时打破了传统深度语音辨认系统对DNN和RNN等网络结构的依赖，最终将辨认准确度提高到了新的高度。明天我们将揭开它的奥秘面纱。

FSMN我们在上一期文章中（请点击阅读原文）做了详细的引见，在这里我们简单的回顾一下。

在FSMN提出之前，学术界和工业界最好的语音辨认系统采用的是双向递归神经网络(BRNN, Bi-directional Recurrent Neural Network），这种网络可以对语音复杂的长时相关性停止建模，从而达到提高辨认正确率的功效。但是双向递归神经网络存在训练复杂度高，训练不波动以及解码时延很高的成绩，很难运用化。

FSMN的提出很好的处理了上述缺陷。FSMN经过在传统DNN结构的隐层旁边添加一个“记忆模块”，存储当前语音帧周边的历史信息和将来信息。FSMN的模型结构如图（a）所示，图（b）给出了FSMN的记忆模块记忆当前语音帧左右各1帧信息时的时序展开结构。由于FSMN的结构中不存在递归，可以避免RNN的不波动性，同时由于采用了记忆模块可以很好的对语音的长时相关性停止建模。

FSMN的成功给了我们一个很好的启示：对语音的长时相关性建模并不需求观察整个句子,也不一定需求运用递归结构，只需将足够长的语音上下文信息停止良好的表达就可以对当前帧的决策提供足够的协助，而卷积神经网络CNN异样可以做到这一点。

CNN早在2012年就被用于语音辨认系统，并且不断以来都有很多研讨人员积极投身于基于CNN的语音辨认系统的研讨，但一直没有大的打破。最次要的缘由是他们没有打破传统前馈神经网络采用固定长度的帧拼接作为输入的思想定式，从而无法看到足够长的语音上下文信息。另外一个缺陷是他们只是将CNN视作一种特征提取器，因此所用的卷积层数很少，普通只要一到二层，这样的卷积网络表达才能非常有限。针对这些成绩，结合研发FSMN时的阅历，我们推出了全新的深度全序列卷积神经网络（Deep Fully Convolutional Neural Network, DFCNN）语音辨认框架，运用大量的卷积层直接对整句语音信号停止建模，更好的表达了语音的长时相关性，比学术界和工业界最好的双向RNN语音辨认系统辨认率提升了15%以上。下面我们详细引见一下DFCNN语音辨认框架。

DFCNN的结构如图（c）所示，DFCNN直接将一句语音转化成一张图像作为输入，即先对每帧语音停止傅里叶变换，再将工夫和频率作为图像的两个维度，然后经过非常多的卷积层和池化(pooling)层的组合，对整句语音停止建模，输入单元直接与最终的辨认结果比如音节或者汉字相对应。

DFCNN的工作机理俨然像是一位德高望重的语音学专家，经过“观看”语谱图即可知道语音中表达的内容。对于很多读者来说，乍一听能够以为是在写科幻小说，但听完我们下面的分析之后置信大家都会觉得这种架构是那么的自然。

图（c）：DFCNN结构图

首先，从输入端来看，传统语音特征在傅里叶变换之后运用各种人工设计的滤波器组来提取特征，形成了频域上的信息损失，在高频区域的信息损失尤为分明，而且传统语音特征为了计算量的思索必须采用非常大的帧移，无疑的形成了时域上的信息损失，在说话人语速较快的时分表现的更为突出。因此DFCNN直接将语谱图作为输入，相比其他以传统语音特征作为输入的语音辨认框架相比具有自然的优势。其次，从模型结构下去看，DFCNN与传统语音辨认中的CNN做法不同，它自创了图像辨认中效果最好的网络配置，每个卷积层运用3x3的小卷积核，并在多个卷积层之后再加上池化层，这样大大加强了CNN的表达才能，与此同时，经过累积非常多的这种卷积池化层对，DFCNN可以看到非常长的历史和将来信息，有这两点就保证了DFCNN可以出色的表达语音的长时相关性，相比RNN网络结构在鲁棒性上反而愈加出色。最后，从输入端来看，DFCNN还可以和近期很热的序列短时分类(CTC)方案完美结合以完成整个模型的端到端训练，且其包含的池化层等特殊结构可以使得以上端到端训练变得愈加波动。

在和其他多个技术点结合后，讯飞DFCNN的语音辨认框架在外部数千小时的中文语音短信听写义务上，获得了相比目前业界最好的语音辨认框架——双向RNN-CTC系统15%的功能提升，同时结合讯飞的HPC平台和多GPU并行加速技术，训练速度也优于传统的双向LSTM CTC系统。DFCNN的提出开拓了语音辨认新的一片天地，后续基于DFCNN框架，我们还将展开更多相关的研讨工作，例如：双向LSTM和DFCNN都可以提供对长时历史以及将来信息的表达，但是这两种表达之间能否存在互补性，是值得思索的成绩。置信随着研讨的不断深化，科大讯飞的语音辨认系统将不断攀爬新的高峰！

参考文献

[1] S. Zhang, C. Liu, H. Jiang, S. Wei, L. Dai, and Y. Hu, “Feedforward sequential memory networks: A new structure to learn long-term dependency,” arXiv preprint arXiv:1512.08301, 2015.

人工智能大咖读《新智元：机器+人类=超智能时代》

胡郁|科大讯飞轮值总裁、科大讯飞研讨院院长

60年一个甲子的轮回，人工智能在跌宕坎坷的发展中进入第三次高潮当中，伴随着互联网、移动互联网、物联网的发展，人工智能的新纪元曾经降临。《新智元：机器+人类=超智能时代》这本书的出版，将和各位读者一同见证人工智能在运算、感知和认知的各个层次逐渐*越人类，共同面对机器与人类习作的新篇章。十大人工智能研讨院院长、AI 专家

技术 重磅解密

谷歌AlphaGO打败李世石，标志着机器智能向人类智能的领地又迈进了伟大的一步。而“互联网+”向“智能+”时代的跃迁，也昭示新智能时代即将到来。2016年，恰逢人工智能诞生60周年，《新智元：机器+人类=超智能时代》是人工智能技术和产业狂飙突进的见证，为读者打开人工智能世界的一扇大门，不只可以一窥百度大脑、讯飞超脑、中国大脑计划终究，更可以著名人工智能研讨院院长等顶级专家大咖的技术解密作为对智能产业将来趋向的参照。近百位学界、商界、技术界、产业界的专家，从机器人、机器学习、智能汽车、智能医疗、认知迷信、高功能计算和“AI+”投资等不同视角，对人工智能和机器人产业停止评析。人类将来在AI时代将何去何从，超智能时代将引发社会更多思索。

1550216188 · 2019-2-17 06:50:10

分享了

笑点来了 · 2019-2-17 13:06:00

大佬，这是大佬

难有一曲钟萦耳 · 2019-2-17 22:03:33

学习下

		自动登录	找回密码
密码			立即注册

语音辨认片面进入CNN时代：会读“语谱图”的全新语音辨认框架

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们