找回密码
 立即注册
搜索

献给转行的程序员:一文带你走进自动语音辨认ASR的前生今世


语音辨认发展历史自动语音辨认(Automatic Speech Recognition,ASR)的义务是准确、高效的将语音信号转化成为文字信息,这种转化过程对收音设备、讲话人口音、现场声学环境等要素要具有较强的鲁棒性。

1.发端

ASR的研讨最早可以追溯到20世纪50年代。1952年贝尔实验室研发出了10个孤立数字的辨认系统,该系统针对每个英文数字提取发音的元音共振峰特征,对特定的讲话人停止孤立数字辨认。该工作可以看作是ASR的发端。此后不久,普林斯顿大学构建了针对特定讲话人的包括10个单音节单词的辨认系统,伦敦大学构建了可以辨认四个元音和九个辅音的音素辨认系统,而麻省理工完成了针对非特定人的元音辨认器。

这一时段的ASR系统发展缓慢,功能也有限,基本限制在对音素或者有限个孤立词的辨认,无法对延续语音做有效的处理。

2. 发展

20世纪70年代,形式辨认、动态规划、线性预测编码技术被引入到语音辨认中,这些技术使孤立词的辨认实际得以完善并达到适用的要求。此后,研讨人员末尾转向大词汇量延续语音辨认系统(Large Vocabulary Continuous Speech Recognition,LVCSR)。这一时期,美国国防高级研讨计划局(Defense Advanced Research Projects Agency,DARPA)设立了语音了解研讨计划。在该计划的推进下诞生了很多具有一定适用价值的系统。例如卡耐基梅隆大学的Harpy系统可以辨认1011个单词,并拥有不错的准确率。


图 1 语音辨认框架



3. 打破

基于隐马尔可夫模型(Hidden Markov Model,HMM)的声学建模和基于n-gram的言语模型在语音辨认中得到运用,使得语音辨认得到了很大程度的打破。HMM音辨认模型可以很好地描画语音信号的短时颠簸特性,并且将声学、言语学、句法等知识集成到一致框架中。此后,HMM的研讨和运用逐渐成为了主流。这一时期,DARPA支持的研讨计划推进产生了许多著名的语音辨认系统。其中最著名的系统是SPHINX系统,该系统可以以为是第一个非特定人延续语音辨认系统,由当时还在卡耐基梅隆大学读书的李开复研发。其核心就是GMM—HMM框架,其中高斯混合模型(Gaussian Mixture Model,GMM)用来对语音的观察概率停止建模,HMM则对语音的时序停止建模。20世纪80年代后期,深度神经网络(Deep Neural Network,DNN)的前身——人工神经网络(Artificial Neural Network,ANN)也成为了语音辨认研讨的一个方向。但这种浅层神经网络在语音辨认义务上的效果普通,表现并不如GMM—HMM模型。

20世纪90年代末尾,次要得益于基于GMM-HMM声学模型的区分性训练准绳和模型自顺应方法的提出,语音辨认掀起了第一次研讨和运用的小高潮。这时期剑桥发布的HTK开源工具包大幅度降低了语音辨认研讨的门槛。此后将近10年的工夫里,语音辨认的研讨停顿不断比较有限,基于GMM—HMM框架的语音辨认系统全体效果还远远达不到适用化程度,语音辨认的研讨和运用堕入了瓶颈。


图 2 SPHINX系统训练过程



4. 再次发展

从2006年之后掀起的深度学习浪潮使得语音辨认技术得到了一日千里的发展。2009年,Hiton等人初次将深度神经网络(Deep Nerual Network,DNN)运用到语音辨认中。他们设计了如图3所示的DNN-HMM模型,在3小时的数据集TIMIT上对音素辨认义务获得了很好的效果。但是这项工作次要局限于音素的辨认。在此基础上,俞栋、邓力等人在2011年提出了基于上下文相关(Context Dependent,CD)的DNN-HMM模型。CD-DNN-HMM在LVCSR义务上比传统的GMM-HMM获得了分明的功能提升。从此,GMM-HMM框架被打破,基于DNN-HMM的系统末尾得到极大关注。


图 3 DNN-HMM模型



随着深度学习的发展,积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent Neural Network,RNN)等网络结构展现出各自相对于DNN 的优势,并在语音辨认中得到越来越广泛的运用。

相比于DNN,CNN经过采用部分滤波和最大池化技术可以获得愈加鲁棒性的特征。因此,CNN在语音辨认中常被用来当作一种有效的特征提取工具。[2]中经过采用2层CNN,再添加4层DNN的结构,相比于6层DNN,在大词汇量延续语音辨认义务上可以获得相对3% 5%的功能提升。[3]等工作运用了非常深层的CNN结构,研讨结果表明深层的CNN往往可以获得更好的功能。

语音信号是一种非颠簸时序信号,如何有效地对长时时序动态相关性停止建模至关重要。由于DNN和CNN对输入信号的感受视野相对固定,所以对于长时时序动态相关性的建模存在一定的缺陷。RNN经过在隐层添加一些反馈衔接,使得模型具有一定的动态记忆才能,对长时时序动态相关性具有较好的建模才能。文献[4]最早尝试将RNN用于语音辨认的声学建模,在TIMIT语料库上获得了当时最好的辨认功能。由于简单的RNN会存在梯度消逝成绩,一个改进的模型是基于长短时记忆单元(Long—Short Term Memory,LSTM)的递归结构。文献[5]运用LSTM—HMM在大数据库上获得了成功。此后大量的研讨人员转移到基于LSTM的语音声学建模的研讨中。基于双向LSTM的语音声学模型系统可以获得相比基于DNN系统超过20%的相对功能提升。文献[6]结合CNN、DNN以及LSTM各自的优点,提出了CLDNN结构用于语音的声学建模。


图 4 CLDNN模型结构



5. 端到端的语音辨认

以上所讨论的基于深度学习的语音辨认声学模型建模技术,在模型训练上,声学模型和言语模型的训练是独立的,经过后端的解码将两者停止交融。声学模型的训练过程中首先需求应用HMM停止对齐得到训练数据帧级别的标注,所以整个模型的训练分成很多个阶段。针对此成绩,基于深度学习的语音辨认技术近期的一个研讨热点是如何停止端到端的语音辨认。

[7]提出了延续时序分类(connectionist temporal classification,CTC)

技术,该技术推进端到端语音辨认得到迅速的发展。


图 5 CTC模型



文献[8]提出采用CTC和LSTM结合的声学模型,该模型直接对一句语音的音素序列或者绑定的音素(Context—dependent phone,CD-Phone)序列与对应的语音特征序列停止序列层面建模,不需求应用HMM停止强迫对齐得到帧级别的标注,可以获得相比于传统LSTM-HMM声学模型更好的功能。

端到端的语音辨认的另外一个方法是基于编码和解码(encoder decoder)模型以及留意(attention)模型,直接完成从语音声学特征序列到最终句子级的音素序列、字符序列或词序列的输入。该方法异样不需求停止分帧以及得到帧级别的标注。文献[9]运用基于Attention的Encoder—decoder模型在TIMIT数据库上获得了和主流混合神经网络以及HMM模型相当的功能。但是在大词汇量延续语音辨认义务上,该方法的功能和目前最好的语音辨认系统的功能还有一定的差距。

参考文献

[1] KH Davis, R Biddulph, and Stephen Balashek. Automatic recognition of spoken digits. The Journal of the Acoustical Society of America, 24(6):637–642, 1952.

[2] Tara N Sainath, Abdel-rahman Mohamed, Brian Kingsbury, and Bhuvana Ramabhadran. Deep convolutional neural networks for lvcsr. In Acoustics, speech and signal processing (ICASSP), 2013 IEEE internationalconference on, pages 8614–8618. IEEE, 2013.

[3] Tom Sercu, Christian Puhrsch, Brian Kingsbury, and Yann LeCun. Very deep multilingual convolutional neural networks for lvcsr. In Acoustics,Speech and Signal Processing (ICASSP), 2016 IEEE International Conferenceon, pages 4955–4959. IEEE, 2016.

[4] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton. Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee international conference on,pages 6645–6649. IEEE, 2013.

[5] Haşim Sak, Andrew Senior, and Françoise Beaufays. Long short-term memory recurrent neural network architectures for large scale acoustic modeling. In Fifteenth annual conference of the international speechcommunication association, 2014.

[6] Tara N Sainath, Oriol Vinyals, Andrew Senior, and Haşim Sak. Convolutional, long short-term memory, fully connected deep neural networks. In Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE InternationalConference on, pages 4580–4584. IEEE, 2015.

[7] Alex Graves, Santiago Fernández, Faustino Gomez, and Jürgen Schmidhuber. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rdinternational conference on Machine learning, pages 369–376. ACM, 2006.

[8] Ying Zhang, Mohammad Pezeshki, Philémon Brakel, Saizheng Zhang, Cesar Laurent Yoshua Bengio, and Aaron Courville. Towards end-toend speech recognition with deep convolutional neural networks. arXivpreprint arXiv:1701.02720, 2017.

[9] Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio. Attention-based models for speech recognition. In Advances in Neural Information Processing Systems, pages 577–585, 2015.

作者:东方不败

声明:本文为易学智能原创内容,未经允许请勿转载

欢迎关注“易学智能”头条号,回复区有问必答

easyaiforum.cn论坛提供编程实验和学习平台

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评5

123788999 2018-12-15 18:49:57 显示全部楼层
学习语音辨认!
回复

使用道具 举报

heromxs 2018-12-15 20:41:44 显示全部楼层
分享了
回复

使用道具 举报

bwjtw 2018-12-15 22:07:08 显示全部楼层
分享了
回复

使用道具 举报

叶赫那拉静 2018-12-16 07:46:22 显示全部楼层
写的不错,配图再多点就好啦
回复

使用道具 举报

lawjean 2018-12-16 13:35:49 显示全部楼层
给你我的小心心
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies