语音辨认概论

君莫冷笑 · 2020-8-7 11:52:31

语音辨认是一门综合性学科，触及的范畴非常广泛，包括声学、语音学、言语学、信号处理、概率统计、信息论、形式辨认和深度学习等。语音辨认的基础实际包括语音的产生和感知过程、语音信号基础知识、语音特征提取等，关键技术包括高斯混合模型 ( Gaussian Mixture Model，GMM )、隐马尔可夫模型 ( Hidden Markov Model，HMM )、深度神经网络 ( Deep Neural Network，DNN )，以及基于这些模型构成的GMM-HMM、DNN-HMM和端到端 ( End-to-End，E2E ) 系统。言语模型和解码器也非常关键，直接影响语音辨认实践运用的效果。
为了让读者更好地了解语音信号的特性，接上去我们首先引见语音的产生和感知机制。

01

语音的产生和感知
如图1-1所示，人的发音器官包括：肺、气管、声带、喉、咽、鼻腔、口腔和唇。肺部产生的气流冲击声带，产生振动。声带每开启和闭合一次的工夫是一个基音周期 ( Pitch period ) T，其倒数为基音频率 ( F0=1/T，基频 )，范围在70Hz~450Hz。基频越高，声响越尖细，如小孩的声响比大人尖，就是由于其基频更高。基频随工夫的变化，也反映声调的变化。

图1-1 人的发音器官[37]
声道次要由口腔和鼻腔组成，它是对发音起重要作用的器官，气流在声道会产生共振。前五个共振峰频率 ( F1、F2、F3、F4和F5 )，反映了声道的次要特征。共振峰的地位、带宽和幅度决议元音音色，改变声道外形可改变共振峰，改变音色。
语音可分为浊音和浊音，其中浊音是由声带振动并激励声道而得到的语音，浊音是由气流高速冲过某处收缩的声道所产生的语音。
语音的产生过程可进一步笼统成如图1-2所示的激励模型，包含激励源和声道部分。在激励源部分，冲击序列发生器以基音周期产生周期性信号，经过声带振动，相当于经过声门波模型，肺部气流大小相当于振幅；随机噪声发生器产生非周期信号。声道模型模拟口腔、鼻腔等声道器官，最后产生语音信号。我们要发浊音时，声带振动构成准周期的冲击序列。发浊音时，声带松弛，相当于发出一个随机噪声。

图1-2 产生语音的激励模型

如图1-3所示，人耳是声响的感知器官，分为外耳、中耳和内耳三部分。外耳的作用包括声源的定位和声响的放大。
外耳包含耳翼和外耳道，耳翼的作用是保护耳孔，并具有定向作用。外耳道同其他管道一样也有共振频率，大约是3400 Hz。鼓膜位于外耳道内端，声响的振动经过鼓膜传到内耳。中耳由三块听小骨组成，作用包括放大声压和保护内耳。中耳经过咽鼓管与鼻腔相通，其作用是调理中耳压力。内耳的耳蜗完成声振动到神经冲动的转换，并传递到大脑。

图1-3 声响的感知器官[37]
正常人耳能感知的频率范围为20 Hz~20 kHz，强度范围为0 dB~120 dB。人耳对不同频率的感知程度是不同的。音调是人耳对不同频率声响的一种客观感觉，单位为mel。mel频率与在1kHz以下的频率近似成线性反比关系，与1kHz以上的频率成对数反比关系。

02

语音辨认过程
人耳接收到声响后，经过神经传导到大脑分析，判别声响类型，并进一步分辨能够的发音内容。人的大脑从婴儿出生末尾，就不断在学习外界的声响，经过长工夫的潜移默化，最终才听懂人类的言语。机器跟人一样，也需求学习言语的共性和发音的规律，才能停止语音辨认。
音素 ( phone ) 是构成语音的最小单位。英语中有48个音素 ( 20个元音和28个辅音 )。采用元音和辅音来分类，汉语普通话有32个音素，包括元音10个，辅音22个。
但普通话的韵母很多是复韵母，不是简单的元音，因此拼音普通分为声母 ( initial ) 和韵母 ( final )。汉语中原来有21个声母和36个韵母，经过扩大 ( 添加a o e y w v ) 和调整后，包含27个声母和38个韵母 ( 不带声调 ) ，如表1-1所示。

表1-1 普通话的声母和韵母 ( 不带声调 ) 分类表

音节 ( syllable ) 是听觉能感遭到的最自然的语音单位，由一个或多个音素按一定的规律组合而成。英语音节可单独由一个元音构成，也可由一个元音和一个或多个辅音构成。汉语的音节由声母、韵母和音调构成，其中音调信息包含在韵母中。所以，汉语音节结构可以简化为：声母+韵母。
汉语中有409个无调音节，约1300个有调音节。
汉字与汉语音节并不是逐一对应的。一个汉字可以对应多个音节，一个音节可对应多个汉字，例如：
和 —— hé hè huó huò hú
tián —— 填甜
语音辨认过程是个复杂的过程，但其最终义务归结为，找到对应观察值序列O的最能够的词序列W^。按贝叶斯准绳转化为：

其中，P(O)与P(W)没有关系，可以为是常量，因此P(W|O)的最大值可转换为P(O|W)和P(W)两项乘积的最大值，第一项P(O|W)由声学模型决议，第二项P(W)由言语模型决议。
图1-4所示是典型的语音辨认过程。为了让机器辨认语音，首先提取声学特征，然后经过解码器得到形状序列，并转换为对应的辨认单元。普通是经过词典将音素序列 ( 如普通话的声母和韵母 )，转换为词序列，然后用言语模型规整约束，最后得到句子辨认结果。
例如，对"明天天气很好"停止词序列、音素序列、形状序列的分解，并和观察值序列对应，如图1-5所示。其中每个音素对应一个HMM，并且其发射形状 ( 深色 ) 对应多帧观察值。
从图1-5中可看出，人的发音包含双重随机过程，即说什么不确定，怎样说也不确定，很难用简单的模板婚配技术来辨认。更合适的方法是用HMM这种统计模型来描写双重随机过程。
我们来看一个简单的例子，假设词典包含：
明天 j in1 t ian1

图1-4 语音辨认过程
则"明天"的词HMM由"j"、"in1"、"t"和"ian1"四个音素HMM串接而成，构成一个残缺的模型以停止解码辨认。这个解码过程可以找出每个音素的边界信息，即每个音素 ( 包括形状 ) 对应哪些观察值 ( 特征向量 )，均可以婚配出来。音素形状与观察值之间的婚配关系用概率值衡量，可以用高斯分布或DNN来描画。

图1-5 从句子到形状序列的分解过程

语音辨认义务有简单的孤立词辨认，也有复杂的延续语音辨认，工业运用普遍要求大词汇量延续语音辨认 ( LVCSR )。图1-6所示是主流的语音辨认系统框架。对输入的语音提取声学特征后，得到一序列的观察值向量，再将它们送到解码器辨认，最后得到辨认结果。解码器普通是基于声学模型、言语模型和发音词典等知识源来辨认的，这些知识源可以在辨认过程中动态加载，也可以预先编译成一致的静态网络，在辨认前一次性加载。发音词典要事前设计好，而声学模型需求由大批量的语音数据 ( 触及各地口音、不同年龄、性别、语速等方面 ) 训练而成，言语模型则由各种文本语料训练而成。为保证辨认效果，每个部分都需求精细的调优，因此对系统研发人员的专业背景有较高的要求。

图1-6 主流的语音辨认系统框架

03

语音辨认发展历史
罗马城不是一天建成的，语音辨认近些年的迸发也并非一朝一夕可以做到的，而是经过了一段漫长的发展历程。从最后的语音辨认雏形，到高达90%以上准确率的如今，经过了大约100年的工夫。在电子计算机被发明之前的20世纪20年代，消费的一种叫作"Radio Rex"的玩具狗被以为是世界上最早的语音辨认器。每当有人喊出"Rex"这个词时，这只狗就从底座上弹出来，以此回应人类的"呼唤"。但是实践上，它运用的技术并不是真正意义上的语音辨认技术，而是运用了一个特殊的弹簧，每当该弹簧接收到频率为500Hz的声响时，它就会被自动释放，而500Hz恰恰就是人们喊出"Rex"时的第一个共振峰的频率。"Radio Rex"玩具狗被视为语音辨认的雏形。
真正意义上的语音辨认研讨来源于20世纪50年代。先是美国的AT&T Bell实验室的Davis等人成功开发出了世界上第一个孤立词语音辨认系统——Audry系统，该系统可以辨认10个英文数字的发音[1]，正确率高达98%。1956年，美国普林斯顿大学的实验室运用模拟滤波器组提取出元音的频谱后，经过模板婚配，建立了针对特定说话人的包括10个单音节词的语音辨认系统。1959年，英国伦敦大学的迷信家Fry和Denes等人第一次应用统计学的原理构建出了一个可以辨认出4个元音和9个辅音的音素辨认器。在同一年，美国麻省理工学院林肯实验室的研讨人员则初次完成了可以针对非特定人的可辨认10个元音音素的辨认器[2]。
图1-7给出了语音辨认技术的发展历史，次要包括模板婚配、统计模型和深度学习三个阶段。

图1-7 语音辨认发展历史

第一阶段：模板婚配 ( DTW )
20世纪60年代，一些重要的语音辨认的经典实际先后被提出和发表出来。1964年，Martin为了处理语音时长不分歧的成绩，提出了一种工夫归一化的方法，该方法可以牢靠地检测出语音的端点，这可以有效地降低语音时长对辨认结果的影响，使语音辨认结果的可变性减小了。1966年，卡耐基梅隆大学的 Reddy 应用动态跟踪音素的方法停止了延续语音辨认，这是一项创始性的工作。1968年，前苏联迷信家Vintsyuk初次提出将动态规划算法运用于对语音信号的工夫规整。虽然在他的工作中，动态工夫规整的概念和算法原型都有表现，但在当时并没有惹起足够的注重。这三项研讨工作，为此后几十年语音辨认的发展奠定了坚实的基础。虽然在这10年中语音辨认实际获得了分明的提高，但是这间隔完成真正适用且牢靠的语音辨认系统的目的照旧非常悠远。
20世纪70年代，语音辨认技术飞速发展，又获得了几个打破性的停顿。1970年，来自前苏联的Velichko和Zagoruyko将形式辨认的概念引入语音辨认中。同年，Itakura提出了线性预测编码 ( Linear Predictive Coding，LPC ) 技术，并将该技术运用于语音辨认。1978年，日本人Sakoe和Chiba在前苏联迷信家Vintsyuk的工作基础上，成功地运用动态规划算法将两段不同长度的语音在工夫轴上停止了对齐，这就是我们如今常常提到的动态工夫规整 ( Dynamic Time Warping，DTW )[3][4]。该算法把工夫规整和间隔的计算无机地结合起来，处理了不同时长语音的婚配成绩。在一些要求资源占用率低、辨认人比较特定的环境下，DTW是一种很经典很常用的模板婚配算法。这些技术的提出完善了语音辨认的实际研讨，并且使得孤立词语音辨认系统达到了一定的适用性。此后，以IBM公司和Bell实验室为代表的语音研讨团队末尾将研讨重点放到大词汇量延续语音辨认系统 ( Large Vocabulary Continuous Speech Recognition，LVCSR )，由于这在当时看来是更有应战性和更有价值的研讨方向。20世纪70年代末，Linda的团队提出了矢量量化 ( Vector Quantization，VQ )[5]的码本生成方法，该项工作对于语音编码技术具有严重意义。美国国防部下属的一个名为美国国防高级研讨计划局 ( Defense Advanced Research Projects Agency，DARPA ) 的行政机构，在20世纪70年代介入语音范畴，末尾资助一项旨在支持言语了解系统的研讨开发工作的10年战略计划。在该计划推进下，诞生了一系列不错的研讨成果，如卡耐基梅隆大学推出了Harpy系统，其能辨认1000多个单词且有不错的辨认率。
第二阶段：统计模型 ( GMM-HMM )
到了20世纪80年代，更多的研讨人员末尾从对孤立词辨认系统的研讨转向对大词汇量延续语音辨认系统的研讨，并且大量的延续语音辨认算法应运而生，例如分层构造 ( Level Building ) 算法等。同时，20世纪80年代的语音辨认研讨相较于20世纪70年代，另一个变化是基于统计模型的技术逐渐替代了基于模板婚配的技术。统计模型两项很重要的成果是声学模型和言语模型，言语模型以n元言语模型 ( n-gram ) 为代表，声学模型以HMM为代表。HMM的实际基础在1970年前后由Baum等人建立[6]，随后由卡耐基梅隆大学 ( CMU ) 的Baker和IBM的Jelinek等人运用到语音辨认中。在20世纪80年代中期，Bell实验室的L.R. Rabiner等人对HMM停止了深化浅出的引见[7]，并出版了语音辨认专著Fundamentals of Speech Recognition[8]，有力地推进了HMM在语音辨认中的运用。Mark Gales和Steve Young在2007年对HMM在语音辨认中的运用做了详细阐述[9]。随着统计模型的成功运用，HMM末尾了对语音辨认数十年的统治，直到现今仍被看作是范畴内的主流技术。在DARPA的语音研讨计划的资助下，又诞生了一批著名的语音辨认系统，其中包括李开复 ( K.F.Lee ) 在卡耐基梅隆大学攻读博士学位时开发的SPHINX系统。该系统也是基于统计模型的非特定说话人延续语音辨认系统，其采用了如下技术：① 用HMM对语音形状的转移概率建模；② 用高斯混合模型 ( Gaussian Mixture Model，GMM ) 对语音形状的观察值概率建模。这种把上述二者相结合的方法，称为高斯混合模型-隐马尔可夫模型 ( Gaussian Mixture Model-Hidden Markov Model，GMM-HMM )[9][10]。在深度学习热潮出现之前，GMM-HMM不断是语音辨认最主流最核心的技术。值得留意的是，在20世纪80年代末，随着分布式知识表达和反向传播算法 ( Backpropagation，BP ) 的提出，处理了非线性学习成绩，于是关于神经网络的研讨兴起，人工神经网络 ( Artificial Neural Network，ANN )[11]被运用到语音范畴并且掀起了一定的热潮。这是具有里程碑意义的事情，它为若干年后深度学习在语音辨认中的崛起奠定了一定的基础。但是由于人工神经网络其本身的缺陷还未得到完全处理，它相对于GMM-HMM系统并没有什么优势可言，研讨人员还是更倾向于基于统计模型的方法。在20世纪80年代还有一个值得一提的事情，美国国家标准技术署 ( NIST ) 在1987年第一次举行了NIST评测，这项评测在后来成为了全球最威望的语音评测。
20世纪90年代，语音辨认进入了一个技术相对成熟的时期，主流的GMM-HMM框架得到了更广泛的运用，在范畴中的地位越发波动。声学模型的说话人自顺应 ( Speaker Adaptation ) 方法和区分性训练 ( Discriminative Training ) 准绳的提出，进一步提升了语音辨认系统的功能。1994年提出的最大后验概率估计 ( Maximum A Posteriori Estimation，MAP )[12]和1995年提出的最大似然线性回归 ( Maximum Likelihood Linear Regression，MLLR )[13]，协助HMM完成了说话人自顺应。最大互信息量 ( Maximum Mutual Information，MMI )[14]和最小分类错误 ( Minimum Classification Error，MCE )[15]等声学模型的区分性训练准绳相继被提出，运用这些区分性准绳去更新GMM-HMM的模型参数，可以让模型的功能得到分明提升。此外，人们末尾运用以音素为代表的字词单元作为基本单元，一些支持大词汇量的语音辨认系统被陆续开发出来，这些系统不但可以做到支持大词汇量非特定人延续语音辨认，而且有的产品在可用性方面达到了很好的功能，例如微软公司的Whisper、贝尔实验室的PLATO、麻省理工学院的SUMMIT系统、IBM的ViaVioce系统。英国剑桥大学Steve Young创始的语音辨认工具包HTK ( Hidden Markov Tool Kit )[10]，是一套开源的基于HMM的语音辨认软件工具包，它采用模块化设计，而且配套了非常详细的HTKBook 文档，这既方便了初学者的学习、实验 ( HTKBook 文档做得很好 )，也为语音辨认的研讨人员提供了专业且便于搭建的开发平台。HTK自1995年发布以来，被广泛采用。即便如今，大部分人在接受语音专业启蒙教育时，依然还是要经过HTK辅助将实际知识串联到工程实际中。可以说，HTK对语音辨认行业的发展意义严重。
进入21世纪头几年，基于GMM-HMM的框架日臻成熟完善，人们对语音辨认的要求曾经不再满足于简单的朗诵和对话，末尾将目光着眼于生活中的普通场景，因此研讨的重点转向了具有一定辨认难度的日常流利对话、电话通话、会议对话、旧事广播等一些贴近人类实践运用需求的场景。但是在这些义务上，基于GMM-HMM框架的语音辨认系统的表现并不能令人称心，辨认率达到80%左右后，就无法再获得打破。人们发现不断占据主流的GMM-HMM框架也不是万能的，它在某些实践场景下的辨认率无法达到人们对实践运用的要求和希冀，这个阶段语音辨认的研讨堕入了瓶颈期。
第三阶段：深度学习 ( DNN-HMM，E2E )
2006年，变革到来。Hinton在全世界最威望的学术期刊Science上发表了论文，第一次提出了"深度置信网络"的概念[16][17]。深度置信网络与传统训练方式的不同之处在于它有一个被称为"预训练" ( pre-training ) 的过程，其作用是为了让神经网络的权值取到一个近似最优解的值，之后运用反向传播算法 ( BP ) 或者其他算法停止"微调" ( fine-tuning )，使整个网络得到训练优化。Hinton给这种多层神经网络的相关学习方法赋予了一个全新的名词——"深度学习" ( Deep Learning，DL )[18]。深度学习不只使深层的神经网络训练变得愈加容易，延长了网络的训练工夫，而且还大幅度提升了模型的功能。以这篇划时代的论文的发表为转机点，从此，全世界再次掀起了对神经网络的研讨热潮，揭开了属于深度学习的时代序幕。
在2009年，Hinton和他的先生Mohamed将深层神经网络 ( DNN ) 运用于声学建模，他们的尝试在TIMIT音素辨认义务上获得了成功。但是TIMIT数据库包含的词汇量较小，在面对延续语音辨认义务时还往往达不到人们希冀的辨认词和句子的正确率。2012年，微软研讨院的俞栋和邓力等人将深度学习与HMM相结合，提出了上下文相关的深度神经网络 ( Context Dependent Deep Neural Network，CD-DNN ) 与HMM交融的声学模型 ( CD-DNN-HMM )[19]，在大词汇量的延续语音辨认义务上获得了分明的提高，相比于传统的GMM-HMM系统获得超过20%的相对功能提升。这是深度学习在言语辨认上具有严重意义的成果。从此，自动语音辨认 ASR 的准确率得到了疾速提升，深度学习彻底打破了GMM-HMM 的传统框架对于语音辨认技术多年的垄断，使得人工智能获得了打破性的停顿。由Daniel Povey领衔开发在2011年发布的Kaldi[20]，是DNN-HMM系统的基石，在工业界得到广泛运用。大多数主流的语音辨认解码器基于加权有限形状转换器 ( WFST )[21]，把发音词典、声学模型和言语模型编译成静态解码网络，这样可大大加快解码速度，为语音辨认的实时运用奠定基础。
近几年，随着机器学习算法的持续发展，各种神经网络模型结构层出不穷。循环神经网络 ( Recurrent Neural Network，RNN ) 可以更有效、更充分地应用语音中的上下文信息[22]，卷积神经网络 ( Convolutional Neural Network，CNN ) 可以经过共享权值来减少计算的复杂度，并且CNN被证明在发掘语音部分信息的才能上更为突出。引入了长短时记忆网络 ( Long Short Term Memory，LSTM ) 的循环神经网络 RNN，可以经过遗忘门和输入门遗忘部分信息来处理梯度消逝的成绩[23]。由LSTM 也衍生出了许多变体，较为常用的是门控循环单元 ( Gated Recurrent Unit，GRU )，在训练数据很大的状况下GRU相比LSTM参数更少，因此更容易收敛，从而能节省很多工夫。LSTM及其变体使得辨认效果再次得到提升，尤其是在近场的语音辨认义务上达到了可以满足人们日常生活的标准。另外，时延神经网络 ( Time Delay Neural Network，TDNN )[24]也获得了不错的辨认效果，它可以顺应语音的动态时域变化，可以学习到特征之间的时序依赖。
深度学习技术在近十几年中，不断保持着飞速发展的形状，它也推进语音辨认技术不断获得打破。尤其是最近几年，基于端到端的语音辨认方案逐渐成了行业中的关注重点，CTC ( Connectionist Temporal Classification )[25]算法就是其中一个较为经典的算法。在LSTM-CTC的框架中，最后一层往往会衔接一个CTC模型，用它来交换HMM。CTC的作用是将Softmax层的输入向量直接输入成序列标签，这样就完成了输入语音和输入结果的直接映射，也完成了对整个语音的序列建模，而不只仅是针对形状的静态分类。2012年，Graves等人又提出了循环神经网络变换器RNN Transducer[26]，它是CTC的一个扩展，可以整合声学模型与言语模型，同时停止优化。自 2015 年以来，谷歌、亚马逊、百度等公司陆续末尾了对CTC模型的研发和运用，并且都获得了不错的功能提升。
2014年，基于 Attention ( 留意力机制 ) 的端到端技术在机器翻译范畴中得到了广泛的运用并获得了较好的实验结果[27]，之后很快被大规模商用。于是，Jan Chorowski在2015年将Attention的运用扩展到了语音辨认范畴[28]，结果大放异彩。在最近的两年里，有一种称为Seq2Seq ( Sequence to Sequence ) 的基于Attention的语音辨认模型[29]在学术界惹起了极大的关注，相关的研讨获得了较大的停顿。在加拿大召开的国际智能语音范畴的顶级会议ICASSP2018上，谷歌公司发表的研讨成果显示，在英语语音辨认义务上，基于 Attention 的 Seq2Seq 模型表现微弱，它的辨认结果曾经超越了其他语音辨认模型[30]。但 Attention 模型的对齐关系没有先后顺序的限制，完全靠数据驱动得到，对齐的自觉性会导致训练和解码工夫过长。而 CTC 的前向后向算法可以引导输入序列与输入序列按工夫顺序对齐。因此 CTC 和 Attention 模型各有优势，可把两者结合起来，构建 Hybrid CTC/Attention模型[31]，并采用多义务学习，以获得更好的效果。
2017年，Google和多伦多大学提出一种称为Transformer[32]的全新架构，这种架构在Decoder和Encoder中均采用Attention机制。特别是在Encoder层，将传统的RNN完全用Attention替代，从而在机器翻译义务上获得了更优的结果，惹起了极大关注。随后，研讨人员把Transformer运用到端到端语音辨认系统[33][34]中，也获得了非常分明的改进效果。
另外，生成式对抗网络 ( Generative Adversarial Network，GAN ) 是近年来无监督学习方面最具前景的一种新颖的深度学习模型，Ian J. Goodfellow等人于2014年10月发表论文"Generative Adversarial Nets"[36]，文中提出了一个经过对抗过程估计生成模型框架的全新方法。经过对抗学习，GAN可用于提升语音辨认的噪声鲁棒性。GAN网络在无监督学习方面展现出了较大的研讨潜质和较好的运用前景。
从一个更高的角度来对待语音辨认的研讨历程，从HMM到GMM，到DNN，再到CTC和Attention，这个演进过程的主线是如何应用一个网络模型完成对声学模型层面更精准的描写。换言之，就是不断尝试更好的建模方式以取代基于统计的建模方式。
在2010年以前，语音辨认行业程度普遍还停留在80%的准确率以下。在接上去的几年里，机器学习相关模型算法的运用和计算机功能的加强，带来了语音辨认准确率的大幅提升。到 2015年，辨认准确率就达到了 90%以上。谷歌公司在2013年时，辨认准确率还仅仅只要77%，但是到2017年5月时，基于谷歌深度学习的英语语音辨认错误率曾经降低到4.9%，即辨认准确率为95.1%，相较于2013年的准确率提升了接近20个百分点。这种程度的准确率曾经接近正常人类。2016年10月18日，微软语音团队在Switchboard语音辨认测试中打破了本人的最好成绩，将词错误率降低至 5.9%。次年，微软语音团队研讨人员经过改进语音辨认系统中基于神经网络的声学模型和言语模型，在之前的基础上引入了CNN-BLSTM ( Convolutional Neural Network Combined with Bidirectional Long Short-Term Memory，带有双向LSTM的卷积神经网络 ) 模型，用于提升语音建模的效果。2017年8月20日，微软语音团队再次将这一纪录刷新，在Switchboard测试中将词错误率从5.9%降低到5.1%，即辨认准确率达到 94.9%，与谷歌一同成为了行业新的标杆。另外，亚马逊 ( Amazon ) 公司在语音行业可谓后发制人，其在2014年底正式推出了Echo智能音箱，并经过该音箱搭载的Alexa语音助理，为运用者提供种种运用服务。Echo 智能音箱一经推出，在消费市场上获得了宏大的成功，如今已成为美国运用最广的智能家居产品，至今累计销量已超过2000万台。投资机构摩根士丹利分析师称智能音箱是继iPad之后"最成功的消费电子产品"。

04

国内语音辨认现状
国内最早的语音辨认研讨末尾于1958年，中国迷信院声学所研讨出一种电子管电路，该电子管可以辨认10个元音。1973年，中国迷信院声学所成为国内首个末尾研讨计算机语音辨认的机构。受限于当时的研讨条件，我国的语音辨认研讨在这个阶段不断停顿缓慢。
改革放开当前，随着计算机运用技术和信号处理技术在我国的普及，越来越多的国内单位和机构具有了语音研讨的成熟条件。而就在此时，本国的语音辨认研讨获得了较大的打破性停顿，语音辨认成为科技浪潮的前沿，得到了迅猛的发展，这推进了包括中科院声学所、中科院自动化所、清华大学、中国科技大学、哈尔滨工业大学、上海交通大学、东南工业大学、厦门大学等许多国外科研机构和高等院校投身到语音辨认的相关研讨当中。大多数的研讨者将研讨重点聚焦在语音辨认基础实际研讨和模型、算法的研讨改进上。
1986年3月，我国的"863"计划正式启动。"863"计划即国家高技术研讨发展计划，是我国的一项高科技发展计划。作为计算机系统和智能迷信范畴的一个重要分支，语音辨认在该计划中被列为一个专项研讨课题。随后，我国展开了系统性的针对语音辨认技术的研讨。因此，对于我国国内的语音辨认行业来说，"863"计划是一个里程碑，它标志着我国的语音辨认技术进入了一个簇新的发展阶段。但是由于研讨起步晚、基础薄弱、硬件条件和计算才能有限，导致我国的语音辨认研讨在整个20世纪80年代都没有获得分明的学术成果，也没有开发出具有优秀功能的辨认系统。
20世纪90年代，我国的语音辨认研讨持续发展，末尾逐渐地紧追国际抢先程度。在"863"计划、国家科技攻关计划、国家自然迷信基金的支持下，我国在中文语音辨认技术方面获得了一系列研讨成果。
21世纪初期，包括科大讯飞、中科信利、捷通华声等一批努力于语音运用的公司陆续在我国成立。语音辨认龙头企业科大讯飞早在2010年，就推出了业界首个中文语音输入法，引领了移动互联网的语音运用。2010年当前，百度、腾讯、阿里巴巴等国内各大互联网公司相继组建语音研发团队，推出了各自的语音辨认服务和产品。在此之后，国内语音辨认的研讨程度在之前建立的坚实基础上，获得了一日千里的提高。如今，基于云端深度学习算法和大数据的在线语音辨认系统的辨认率可以达到95%以上，科大讯飞、百度、阿里巴巴都提供了达到商业标准的语音辨认服务，如语音输入法、语音搜索等运用，语音云用户达到了亿级规模。
人工智能和物联网的迅猛发展，使得人机交互方式发生严重变革，语音交互产品也越来越多。国内消费者接受语音产品也有一个过程，最末尾的认知大部分是从苹果Siri末尾。亚马逊的Echo音箱刚末尾推出的两三年，国内的智能音箱市场还不温不火，不为消费者所接受，因此销量非常有限。但自2017年以来，智能家居逐渐普及，音箱市场末尾火热，为抢占语音入口，阿里巴巴、百度、小米、华为等大公司纷纷推出了各自的智能音箱。据Canalys报告，2019年第1季度中国市场智能音箱出货量全球占比51%，初次超过美国，成为全球最大的智能音箱市场。据奥维云网 ( AVC ) 数据显示，2019年上半年中国智能音箱市场销量为1556万台，同比增长233%。
随着语音市场的扩展，国内涌现出一批具有弱小竞争力的语音公司和研讨团队，包括云知声、思必驰、出门问问、声智科技、北科瑞声、天聪智能等。他们推出的语音产品和处理方案次要针对特定场景，如车载导航、智能家居、医院的病历输入、智能客服、会议系统、证券柜台业务等，由于采用深度定制，辨认效果和产品体验更佳，在市场上获得了不错的反响。针对智能硬件的离线辨认，云知声和思必驰等公司还研发出专门的语音芯片，进一步降低功耗，提高产品的性价比。
在国内语音运用一日千里的同时，各大公司和研讨团队纷纷在国际学术会议和期刊上发表研讨成果。2015年，张仕良等人提出了前馈型序列记忆网络 ( feed-forward sequential memory network，FSMN )，在DNN 的隐层旁添加了一个“记忆模块”，这个记忆模块用来存储对判别当前语音帧有用的语音信号的历史信息和将来信息，并且只需等待有限长度的将来语音帧。随后，科大讯飞进一步提出了深度全序列卷积神经网络 ( DFCNN )。2018年，阿里巴巴改良并开源了语音辨认模型DFSMN ( Deep FSMN )。2018年，中科院自动化所率先把Transformer运用到语音辨认义务，并进一步拓展到中文语音辨认。
不管是在研讨成果还是在产品功能体验上，国内的语音行业全体程度曾经达到甚至超越了国际尖端程度。2016年10月，时任百度首席迷信家的吴恩达在对微软的语音辨认技术与人类程度持平的音讯表示恭喜的同时宣称，百度的汉语语音辨认在2015年就曾经超越了人类的平均程度，也就是说百度比微软提早一年完成了这一成绩。2016年11月，搜狗、百度和科大讯飞三家公司相继召开了三场发布会，分别向外界展现了他们各自在语音辨认等方面的最新停顿。这三家公司几乎不约而同地宣布各自的中文语音辨认准确率达到了97%，这充分阐明大数据和深度神经网络的成功运用使得国内的语音辨认技术获得了质的打破。
虽然如此，当前语音辨认系统依然面临着不少运用应战，其中包括以下次要成绩：

05

语音辨认建模方法
语音辨认建模方法次要分为模板婚配、统计模型和深度模型几种类型，以下分别引见DTW、GMM-HMM、DNN-HMM和端到端模型。
1. DTW
当同一个人说同一个词时，往往会由于语速、语调等差异导致这个词的发音特征和工夫长短各不相反，这样就形成经过采样得到的语音数据在工夫轴上无法对齐的状况。假如工夫序列无法对齐，那么传统的欧氏间隔是无法有效地衡量出这两个序列间真实的相似性的。而DTW的提出就是为了处理这一成绩，它是一种将两个不等长工夫序列停止对齐并且衡量出这两个序列间相似性的有效方法。
如图 1-8 所示，DTW 采用动态规划的算法思想，经过工夫弯折，完成P和Q两条语音的不等长婚配，将语音婚配相似度成绩转换为最优途径成绩。DTW是模板婚配法中的典型方法，非常合适用于小词汇量孤立词语音辨认系统。但DTW过分依赖端点检测，不合适用于延续语音辨认，DTW对特定人的辨认效果较好。

图1-8 动态工夫规整（DTW）
2. GMM-HMM
HMM是一种统计分析模型，它是在马尔可夫链的基础上发展起来的，用来描画双重随机过程。HMM有算法成熟、效率高、易于训练等优点，被广泛运用于语音辨认、手写字辨认和天气预告等多个范畴，目前照旧是语音辨认中的主流技术。
如图1-9所示，HMM包含S1、S2、S3、S4和S55个形状，每个形状对应多帧观察值，这些观察值是特征序列 ( o1、o2、o3、o4,...,oT )，沿时辰t递增，多样化而且不局限取值范围，因此其概率分布不是团圆的，而是延续的。自然界中的很多信号可用高斯分布表示，包括语音信号。由于不同人发音会存在较大差异，详细表现是，每个形状对应的观察值序列呈现多样化，单纯用一个高斯函数来描写其分布往往不够，因此更多的是采用多高斯组合的 GMM 来表征更复杂的分布。这种用 GMM 作为 HMM 形状产生观察值的概率密度函数 ( pdf ) 的模型就是GMM- HMM，如图1-9所示，每个形状对应的GMM由2个高斯函数组合而成。

图1-9 GMM-HMM
3. DNN-HMM
DNN拥有更强的表征才能，其可以对复杂的语音变化状况停止建模。把GMM-HMM的GMM用DNN替代，如图1-10所示，HMM的转移概率和初始形状概率保持不变。

图1-10 把GMM-HMM的GMM用DNN替代
DNN的输入节点与一切HMM ( 包括"a"、"o"等音素 ) 的发射形状逐一对应 ( 如图1-11所示 )，因此可经过DNN的输入得到每个形状的观察值概率。

图1-11 DNN-HMM
4. 端到端
从2015年，端到端模型末尾盛行，并被运用于语音辨认范畴。如图1-12所示，传统语音辨认系统的发音词典、声学模型和言语模型三大组件被交融为一个E2E模型，直接完成输入语音到输入文本的转换，得到最终的辨认结果。

图1-12 E2E模型

06

语音辨认开源工具
HTK ( HMM Toolkit ) 是一个专门用于建立和处理HMM的实验工具包[10]，由剑桥大学的Steve Young等人开发，非常合适GMM-HMM系统的搭建。2015年DNN-HMM推出，该新版本次要由张超博士开发。
Kaldi是一个开源的语音辨认工具箱[20]，它是基于C++编写的，可以在Windows和UNIX平台上编译，次要由Daniel Povey博士在维护。Kaldi合适DNN-HMM系统 ( 包括Chain模型 ) 的搭建，支持TDNN/TDNN-F等模型。其基于有限形状转换器 ( FST ) 停止训练和解码，可用于x-vector等声纹辨认系统的搭建。
Espnet是一个端到端语音处理工具集[35]，其侧重于端到端语音辨认和语音合成。Espnet是运用Python开发的，它将Chainer和Pytorch作为次要的深度学习引擎，并遵照Kaldi风格的数据处理方式，为语音辨认和其他语音处理实验提供残缺的设置，支持CTC/Attention等模型。

07

语音辨认常用数据库
TIMIT——经典的英文语音辨认库，其中包含，来自美国8个次要口音地区的630人的语音，每人10句，并包括词和音素级的标注。图1-13给出了一条语音的波形图、语谱图和标注。这个库次要用来测试音素辨认义务。

图1-13 语音文件“/timit/test/dr5/fnlp0/sa1.wav”的波形图、语谱图和标注
SwitchBoard——对话式电话语音库，采样率为8 kHz，包含来自美国各个地区543人的2400条通话录音。研讨人员用这个数据库做语音辨认测试已有20多年的历史。
LibriSpeech——收费的英文语音辨认数据库，总共1000小时，采样率为16kHz，包含朗诵式语音和对应的文本。
Thchs-30——清华大学提供的一个中文示例，并配套残缺的发音词典，其数据集有30小时，采样率为16 kHz。
AISHELL-1——希尔贝壳开源的 178 小时中文普通话数据，采样率为16kHz。包含400位来自中国不同口音地区的发音人的语音，语料内容涵盖财经、科技、体育、文娱、时势旧事等。
语音辨认数据库还有很多，包括16kHz和8kHz的数据。海天瑞声、数据堂等数据库公司提供大量的商用数据库，可用于工业产品的开发。

08

语音辨认评价目的
假设"我们明天去动物园"的语音辨认结果如下：

辨认结果包含了删除、插入和交换错误。
度量语音辨认功能的目的有许多个，通常运用测试集上的词错误率 ( Word Error Rate，WER ) 来判别整个系统的功能，其公式定义如下：

其中，NRef表示测试集一切的词数量，NDel表示辨认结果相对于实践标注发生删除错误的词数量，NSub代表发生交换错误的词数量，而NIns则表示发生插入错误的词数量。
针对中文普通话，评价目的也常常采用字错误率 ( CER )，即用单字而不是词来计算错误率。

作者：洪青阳，厦门大学副教授，天聪智能创始人，次要研讨方向是语音辨认、声纹辨认，先后掌管国家自然基金两项，科技部创新基金两项。牵头组建厦门大学智能语音实验室，带领xmuspeech团队延续两届获东方语种辨认 ( OLR ) 竞赛第一名，成功研发国内第一套闽南语合成系统。具有丰富的工业界研发阅历，与华为、云从、掌数科技等知名企业合作，承担过大量的智能语音项目，核心技术运用到华为智能手机和全国十五个省市的司法/社保/证券/电力系统。长期从事本科生、研讨生的语音辨认教学工作，从动态工夫规整 ( DTW )、隐马尔可夫模型 ( HMM ) 到E2E语音辨认框架，与时俱进更新教学内容，积累了丰富的教学阅历。

leeedaaa · 2020-8-7 18:16:11

支持支持再支持

小璐児161 · 2020-8-8 14:01:26

LZ是天才，坚定完毕

青岛空气1983 · 2020-8-9 16:12:08

呵呵。。。

		自动登录	找回密码
密码			立即注册

语音辨认概论

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们