2017年,谷歌团队最早提出采用神经网络来处理前端语音加强和语音声学建模的一体化建模成绩,文章从信号处理的Filter-and-Sum 方法出发,首先推导出时域上的模型结构,然后进一步推导出频域上的模型结构FCLP(Factored Complex Linear Projection),相比时域模型而言大幅降低了计算量。该结构先后经过空间滤波和频域滤波,从多通道语音中抽取出多个方向的特征,然后将特征送给后端辨认模型,最终完成网络的结合优化。
谷歌提出的FCLP结构照旧是以信号处理方法为出发点,来源于delay and sum滤波器,用一个深度学习网络去模拟和逼近信号波束,因此也会受限于信号处理方法的一些先验假设。比如FCLP的最低层没有发掘频带之间的相关性信息,存在多路麦克信息运用不充分的成绩,影响了深度学习建模过程的模型精度。