远场语音辨认，功能提升 30%，百度怎样做到的？

嘟嘟熊云烟 · 2019-11-29 07:01:16

作者 | Camel

编辑 | 唐里

「明天我保守报一个 30% 以上的功能提升，很保守。将来这个技术会再次大幅刷新人们对远场语音的认知。我本人的判别是，三年以内远场语音技术的辨认率将达到近场辨认率，由于有了这个技术，远场辨认成绩基本可以得到处理，这是一个很大的跨学科创新。」

讲起百度最近在语音技术上的一项技术打破，百度语音首席架构师贾磊变得激昂澎湃起来。

对于贾磊，大家不会生疏，他是互联网圈子里首位（也是目前唯逐一位）全国休息模范（2015 年），是一位「每天睁开眼睛就是工作，走路坐车都在思索」的人物。

贾磊向记者详细讲述了他们在远场语音交互中的一项新的打破：基于复数卷积神经网络的语音加强和声学建模一体化端到端建模技术。（很长的一段话，关键词：复数CNN、端到端、加强和建模一体化）

据贾磊引见，这项技术颠覆了传统基于数字信号处理的麦克阵列算法，由于它直接丢弃了数字信号处理学科和语音辨认学科的各种先验假设，直接端到端停止一体化建模。相较于传统基于数字信号处理的麦克阵列算法，错误率降低超过 30%；而国际上采用相似思绪方法的相对错误率降低约为 16%。

我们来看下，30% 的错误率降低，百度是如何做到的。

一、传统方法

先从传统方法说起。

目前，语音辨认技术在高信噪比场景下表现良好，但在低信噪比场景下，往往表现不波动。远场语音辨认是一个典型的低信噪比场景。在远场环境下，目的声源间隔拾音器较远，就会使目的信号衰减严重，加之环境嘈杂，干扰信号众多，最终导致信噪比较低，语音辨认功能较差。用户站在 3 米甚至 5 米远处与智能音箱停止语音交互就是一个典型的远场语音辨认运用场景。

传统上，为了提升远场语音辨认的准确率，普通会运用麦克风阵列作为拾音器。应用多通道语音信号处理技术，加强目的信号，提升语音辨认精度。

目前，绝大多数在售的智能音箱产品系统所采用的多通道语音辨认系统，都是由一个前端加强模块和一个后端语音辨认声学建模模块串联而成的：

（图片来源：网络）

前端加强模块通常包括到达方向估计（DOA）和波束生成（BF）。DOA 技术次要用于估计目的声源的方向，BF 技术则应用目的声源的方位信息，加强目的信号，抑制干扰信号。

后端语音辨认声学建模模块，会对这一路加强后的语音信号停止深度学习建模。这个建模过程完全相似于手机上的近场语音辨认的建模过程，只不过输入建模过程的信号不是手机麦克风采集的一路近场信号，而是用基于麦克阵列数字信号处理技术加强后的一路加强信号。

近些年，前端语音加强技术也逐渐末尾用深度学习来做到达方向估计（DOA）和波束生成（BF），不少论文中和产品中也都提到了用深度学习技术来替代麦克阵列系统中的传统数字信号处理技术，也获得了一些提升。

但，

1）波束区域拾音方法有局限性。下面这一类语音加强技术大都是采用基于 MSE 的优化准绳，从听觉感知上使得波束内语音愈加明晰，波束外的背景噪音更小。但是听觉感知和辨认率并不完全分歧。而且这种方法在噪音内容也是语音内容的时分（例如电视和人在同一个方向时），功能会急剧下降。

2）加强和辨认模块优化目的不分歧。前端语音加强模块的优化过程独立于后端辨认模块。该优化目的与后端辨认系统的最终目的不分歧。目的的不一致很能够导致前端加强模块的优化结果在最终目的上并非最优。

3）真实产品环境复杂，传统方法会影响运用体验。由于真实产品场合，声源环境复杂，因此大多数产品都是先由 DOA 确定出声源方向后，再在该方向运用波束生成构成波束，对波束内的信号的信噪比停止提升，同时抑制波束外的噪音的干扰。这样的机制使得整个系统的工作效果都严重依赖于声源定位的准确性。同时用户第一次说唤醒词或者是语音指令的时分，第一次的语音很难准确应用波束信息（例如你说完一句话后，换到了别的方位），影响了初次唤醒率和首句辨认率。

二、一体化的端到端辨认

2017 年谷歌团队最早提出采用神经网络来处理前端语音加强和语音声学建模的一体化建模成绩。

文章从信号处理的 Filter-and-Sum 方法出发，首先推导出时域上的模型结构，然后进一步推导出频域上的模型结构 FCLP（Factored Complex Linear Projection），相比时域模型而言大幅降低了计算量。

该结构先后经过空间滤波和频域滤波，从多通道语音中抽取出多个方向的特征，然后将特征送给后端辨认模型，最终完成网络的结合优化。

谷歌提出的 FCLP 结构照旧是以信号处理方法为出发点，来源于 delay and sum 滤波器，用一个深度学习网络去模拟和逼近信号波束，因此也会受限于信号处理方法的一些先验假设。

比如 FCLP 的最低层没有发掘频带之间的相关性信息，存在多路麦克信息运用不充分的成绩，影响了深度学习建模过程的模型精度。

再比如，beam 的方向（looking direction）数目被定义成 10 个以下，次要是对应于数字信号处理过程的波束空间划分。这种一定要和数字信号处理过程看齐的深度学习模型结构设计，严重影响了深度学习技术在该方向上的发挥和延伸，限制了深度学习模型的模型结构的演化，制约了技术的创新和发展。

最终谷歌学术报告，经过这种方法，相对于传统基于数字信号处理的麦克阵列算法，得到了 16% 的相对错误率降低。

三、百度的处理方案

百度采用了相似的思想，即做「语音加强和语音声学建模一体化」的端到端建模，不过他们所采用的是「基于复数的卷积神经网络」。

相比于谷歌的方法，该方法彻底丢弃了数字信号处理学科的先验知识，模型结构设计和数字信号处理学科完全脱钩，充分发挥了 CNN 网络的多层结构和多通道特征提提取的优势。

详细来讲，该模型底部以复数 CNN 为核心，应用复数 CNN 网络发掘生理信号本质特征的特点。采用复数 CNN，复数全衔接层以及 CNN 等多层网络，直接对原始的多通道语音信号停止多尺度多层次的信息抽取，时期充分发掘频带之间的关联耦合信息。

在保留原始特征相位信息的前提下，这个模型同时完成了前端声源定位、波束构成和加强特征提取。该模型底部 CNN 笼统出来的特征，直接送入端到端的流式多级的截断留意力模型（SMLTA）中，从而完成了从原始多路麦克信号到辨认目的文字的端到端一体化建模。

整个网络的优化准绳完全依赖于语音辨认网络的优化准绳来做，完全以辨认率提升为目的来做模型参数调优。

贾磊引见说：「我们的模型能提取生物的信号本质特征，作为对比，Google 的系统是假设两路麦克信号对应频带之间的信息产生关系，这没有发掘频带之间的信息，这也是 Google 在辨认率上偏低的缘由。」

如后面提到，相对于百度智能音箱线上产品所采用的基于传统数字信号处理的前端加强模块和一个后端语音辨认声学建模过程串联的方法，这种基于复数卷积神经网络的语音加强和声学建模一体化端到端建模技术，获得了错误率超过 30% 以上的降低。

除此之外，贾磊在演讲中还罗列了这种端到端语音辨认的 5 个特点：

这里值得一提的是，目前百度的这种一体化建模方案曾经被集成到百度最新发布的鸿鹄芯片中，该网络所占内存不到200K。

四、结尾

30% 的降低，这也是近期深度学习远场辨认技术中，最大幅度的产品功能提升。

贾磊以为，这揭示了「端到端建模」将是远场语音辨认产业运用的重要发展方向。

贾磊随后补充说：

「本质上人类语音交互都是远场。手机麦克风放在嘴边的近场语音交互，只是人们最后在做语音辨认时，由于无法处理远场辨认成绩而做的一个限制。

假如远场语音技术在将来三年成熟当前，一切的语音都是远场唤醒方式，唤醒之后随意延续的输入，任何一个家电设备或者汽车设备，都可以携带语音交互功能，停止本范畴的查询。所以这个技术成熟意味着远场语音辨认将走进千家万户，在一切我们看到的设备上，都会以远场语音交互为主体，假如再配合芯片的发展，语音辨认、语音合成，将一体化地来处理人类终端交互，我觉得是可以等待的。」

当记者问到贾磊博士，相关的技术能否写成论文发表时，贾磊语速匆匆地表示「我太忙了，没有工夫写论文。」这能够就是全国劳模的样子吧，忙到没有工夫把成果写成论文。

tonezhang2004 · 2019-11-29 07:07:39

都是讯飞淘汰的技术。

张文通 · 2019-11-29 07:14:40

添加麦的灵敏度做到的

979169207 · 2019-11-29 07:20:55

分享了

W买绿茶的菇凉H · 2019-11-29 07:23:53

分享了

xuanfengko · 2019-11-29 17:19:57

very good

曦遥ABC · 2019-12-1 14:07:55

结束了嘛？有种还没完成的感觉，嘻嘻

		自动登录	找回密码
密码			立即注册

远场语音辨认，功能提升 30%，百度怎样做到的？

本帖子中包含更多资源

大神点评6

最近发表

公社版块

关注我们