远场语音辨认错误率降低30%，百度提基于复数CNN网络的新技术

落幕之后有彩虹 · 2019-12-7 17:54:55

【12月公开课预告】，入群直接获取报名地址

12月11日晚8点直播主题：人工智能消化道病理辅助诊断平台——从方法到落地

12月12日晚8点直播：应用容器技术打造AI公司技术中台

12月17日晚8点直播主题：可重构计算：能效比、通用性，一个都不能少

作者 | Just

出品 | AI科技大本营（ID:rgznai100）

间隔3米甚至5米处，用户与智能音箱对话是一个典型的远场语音辨认运用场景。

在远场环境下，目的声源间隔拾音器较远致使目的信号衰减严重，加之环境嘈杂，干扰信号众多，最终导致信噪比较低，语音辨认功能较差。为了提升远场语音辨认准确率，普通会运用麦克风阵列作为拾音器。应用多通道语音信号处理技术，加强目的信号，提升语音辨认精度。

不过，传统数字信号处理技术曾经无法满足技术发展的需求，用深度学习技术来替代麦克阵列系统中的传统数字信号处理曾经末尾成为行业主流。但此前行业提出的处理方案需求和数字信号处理过程看齐的深度学习模型结构设计，严重影响了深度学习技术在该方向上的发挥和延伸，限制了深度学习模型的模型结构的演化，制约了技术的创新和发展。

在近日举行的百度大脑语音才能引擎论坛上，百度语音首席架构师贾磊提出了的基于复数卷积神经网络（Convolutional Neural Network，CNN）的语音加强和声学建模一体化端到端建模技术，它丢弃了数字信号处理学科和语音辨认学科的各种先验假设，模型结构设计和数字信号处理学科完全脱钩，发挥了CNN网络的多层结构和多通道特征提提取的优势，同时充分发挥深度学习学科模型设计灵敏自在的学科优势。

据引见，相较于传统基于数字信号处理的麦克阵列算法，该方法的错误率降低超过30%，目前曾经被集成到百度最新发布的百度鸿鹄芯片中。

基于传统数字信号处理的技术

目前，语音辨认技术在高信噪比场景下表现良好，但在低信噪比场景下，往往表现不波动。

典型的语音辨认场景如目的声源、非目的声源、拾音器和语音辨认软件系统。以家居场景下的智能音箱产品为例，目的声源是朝音箱发出指令的用户；非目的声源是周围的声响干扰，例如家电噪声；拾音器和语音辨认软件系统是智能音箱。在拾音器拾取到的信号中，来自目的声源的信号被称为目的信号，来自非目的声源的信号被称为干扰信号。目的信号强度与干扰信号强度的比值被称为信噪比。

远场语音辨认是一个典型的低信噪比场景，绝大多数在售的智能音箱产品系统目前所采用的多通道语音辨认系统，都是由一个前端加强模块和一个后端语音辨认声学建模模块串联而成的：

前端加强模块通常包括到达方向估计（DOA）和波束生成（BF）。DOA技术次要用于估计目的声源的方向，BF技术则应用目的声源的方位信息，加强目的信号，抑制干扰信号。常用的DOA技术有基于到达时延的定向算法，基于空间谱估计的定向算法等。

常用的BF技术有最小方差无畸变呼应波束成形（MVDR BF），线性约束最小方差波束成形(LCMV BF)和广义旁瓣消弭波束成形（ GSC BF）等。这些BF技术本质上都是提升波束方向内的目的声源方向信号的信噪比，并尽能够的抑制波束外的非目的方向信号。前端加强模块处理后，将产生一路单麦克信号，输入到下面的后端语音辨认声学建模模块中。

后端语音辨认声学建模模块，会对这一路加强后的语音信号停止深度学习建模。这个建模过程完全相似于手机上的近场语音辨认的建模过程，只不过输入建模过程的信号不是手机麦克风采集的一路近场信号，而是用基于麦克阵列数字信号处理技术加强后的一路加强信号。

近些年，前端语音加强技术也逐渐末尾用深度学习来做到达方向估计（DOA）和波束生成（BF），不少论文中和产品中也都提到了用深度学习技术来替代麦克阵列系统中的传统数字信号处理技术，也获得了一些提升。

但是下面这一类语音加强技术大都是采用基于MSE的优化准绳，从听觉感知上使得波束内语音愈加明晰，波束外的背景噪音更小。但是听觉感知和辨认率并不完全分歧。而且这种方法在噪音内容也是语音内容的时分，功能会急剧下降。另外，前端语音加强模块的优化过程独立于后端辨认模块。该优化目的与后端辨认系统的最终目的不分歧。目的的不一致很能够导致前端加强模块的优化结果在最终目的上并非最优。

另外，由于真实产品场合，声源环境复杂，因此大多数产品都是先由DOA确定出声源方向后，再在该方向运用波束生成构成波束，对波束内的信号的信噪比停止提升，同时抑制波束外的噪音的干扰。这样的机制使得整个系统的工作效果都严重依赖于声源定位的准确性。同时用户第一次说唤醒词或者是语音指令的时分，第一次的语音很难准确应用波束信息，影响了初次唤醒率和首句辨认率。

2017年，谷歌团队最早提出采用神经网络来处理前端语音加强和语音声学建模的一体化建模成绩，文章从信号处理的Filter-and-Sum 方法出发，首先推导出时域上的模型结构，然后进一步推导出频域上的模型结构FCLP（Factored Complex Linear Projection），相比时域模型而言大幅降低了计算量。该结构先后经过空间滤波和频域滤波，从多通道语音中抽取出多个方向的特征，然后将特征送给后端辨认模型，最终完成网络的结合优化。

谷歌提出的FCLP结构照旧是以信号处理方法为出发点，来源于delay and sum滤波器，用一个深度学习网络去模拟和逼近信号波束，因此也会受限于信号处理方法的一些先验假设。比如FCLP的最低层没有发掘频带之间的相关性信息，存在多路麦克信息运用不充分的成绩，影响了深度学习建模过程的模型精度。

再比如，beam的方向（looking direction）数目被定义成10个以下，次要是对应于数字信号处理过程的波束空间划分。这种一定要和数字信号处理过程看齐的深度学习模型结构设计，严重影响了深度学习技术在该方向上的发挥和延伸，限制了深度学习模型的模型结构的演化，制约了技术的创新和发展。最终谷歌学术报告，经过这种方法，相对于传统基于数字信号处理的麦克阵列算法，得到了16%的相对错误率降低。

基于复数CNN的语音加强和声学建模一体化端到端建模技术

贾磊在现场披露了基于复数卷积神经网络（Convolutional Neural Network，CNN）的语音加强和声学建模一体化端到端建模技术的更多细节。

详细而言，该模型底部以复数CNN为核心，应用复数CNN网络发掘生理信号本质特征的特点，采用复数CNN, 复数全衔接层以及CNN等多层网络，直接对原始的多通道语音信号停止多尺度、多层次的信息抽取，时期充分发掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下，同时完成了前端声源定位、波束构成和加强特征提取。该模型底部CNN笼统出来的特征，直接送入百度独有的端到端的流式多级的截断留意力模型中，从而完成了从原始多路麦克信号到辨认目的文字的端到端一体化建模。整个网络的优化准绳完全依赖于语音辨认网络的优化准绳来做，完全以辨认率提升为目的来做模型参数调优。

除了模型结构外，该方法要想成功落地产品，还必须处理多路麦克的训练数据的获取和建模成绩。要知道，目前商业语音辨认系统的训练数据，次要依托从数据公司买来的手机上录制的近场语音数据集合。远场多路麦克数据由于采集设备难于获取和周围噪音环境难于控制，而很少存在成规模的训练集合。

百度则研发了一种应用近场数据来模拟生成远场训练数据的方法：模拟一路信号传输到多路麦克风的信号传输过程，并施加混响噪音和环境加性噪音。应用该方法，他们做出数百万远场房间环境下的远场多路麦可信号的模拟数据，并且成功训练出可以达到产品上线级别的一体化声学模型。

论坛上，搭载了该项语音技术的三款基于鸿鹄语音芯片的硬件产品全新发布：芯片模组 DSP芯片+Flash、Android 开发板DSP芯片+ RK3399、RTOS开发板DSP芯片+ESP32。此外，贾磊还描画了基于鸿鹄语音芯片的端到端软硬一体远场语音交互方案以及全新发布的针对智能家居、智能车载、智能IoT设备的三大场景处理方案。

此外，往年年终百度提出截断留意力模型SMLTA，使得句子的整句辨认率、方言的辨认以及中英文混合的辨认率分明提升，完成了语音辨认范畴留意力模型的大规模工业在线产品落地。

而在语音合成范畴，百度首创Tacotron+wavRNN结合训练，大幅提升云端合成速度。百度地图20句话即可录制语音导航的技术基于百度独创的风格迁移技术Meitron模型，特点次要体如今音色转换、多情感朗诵和韵律迁移三个方面，从而大大降低语音合成的门槛。

基于深度学习和产业运用加速打破，百度的语音技术已落地到百度App，百度地图、小度音箱，百度输入法等产品。百度CTO王海峰也在会上宣布，百度大脑经过AI开放平台已开放228项技术才能，接入开发者超过150万，而语音技术日均调用量则超过100亿次。

lingzi520 · 2019-12-8 07:05:15

顶一个，顶一个，顶一个

高阳大闲人 · 2019-12-8 16:33:20

众里寻他千百度，蓦然回首在这里！

茫茫五年坏蛋路 · 2019-12-9 21:54:04

当我看到你的帖子时，我只有赞！狂赞！超赞！力赞！强赞！无敌赞！必须赞！史上最赞！赞了又赞!一赞到底了!

		自动登录	找回密码
密码			立即注册

远场语音辨认错误率降低30%，百度提基于复数CNN网络的新技术

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们