3)真实产品环境复杂,传统方法会影响运用体验。由于真实产品场合,声源环境复杂,因此大多数产品都是先由 DOA 确定出声源方向后,再在该方向运用波束生成构成波束,对波束内的信号的信噪比停止提升,同时抑制波束外的噪音的干扰。这样的机制使得整个系统的工作效果都严重依赖于声源定位的准确性。同时用户第一次说唤醒词或者是语音指令的时分,第一次的语音很难准确应用波束信息(例如你说完一句话后,换到了别的方位),影响了初次唤醒率和首句辨认率。
二、一体化的端到端辨认
2017 年谷歌团队最早提出采用神经网络来处理前端语音加强和语音声学建模的一体化建模成绩。
文章从信号处理的 Filter-and-Sum 方法出发,首先推导出时域上的模型结构,然后进一步推导出频域上的模型结构 FCLP(Factored Complex Linear Projection),相比时域模型而言大幅降低了计算量。