1 引言
在当今的商业环境中,语音识别技术正变得越来越普及,几乎每一款商业设备都在尝试实现某种形式的语音交互功能。无论是跨平台的语音助手(vioce assistant)、转录服务(transcription service),还是作为辅助功能工具(accessibility tool),甚至是最新大语言模型(LLM)的差异化因素,语音听写(dictation)技术已经成为我们日常用户接口的一部分。根据TechNavio的市场研究报告,预计从2023年到2028年,语音用户接口(Voice-User Interface,简称VUI)的市场规模将以23.39%的复合年增长率增长。这预示着技术驱动型公司将更广泛地采用这项技术。
然而,对于这项技术,您又了解多少呢?让我们从深入剖析和定义那些使语音识别技术得以实现的关键技术开始。
2 特征提取
在进行语音识别之前,首要任务是将人类产生的声波(sound wave)转换成机器能够理解的数据格式。这个过程包括预处理(pre-processing)和特征提取(feature extraction)。特征提取是语音识别系统中的关键步骤,它将声波的原始数据转换成一组特征,这些特征能够代表语音信号的关键属性。有两种最常见的特征提取技术,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)和感知线性预测(Perceptual Linear Predictive,PLP)系数。
2.1 梅尔频率倒谱系数(MFCC)
MFCC 是一种广泛使用的特征提取技术,它通过分析音频信号的功率谱来捕捉声音的独特特征。MFCC 的处理流程如下:
- 预加重:首先,对信号进行预加重,以强调高频部分,因为人耳对高频的感知不如低频敏感。
- 分帧:接着,将信号分割成短帧,通常每帧的时长为20到40毫秒。这模拟了人耳对声音的感知方式,即短时间内的声音片段。
- 加窗:对每个帧应用窗函数,以减少帧边界处的不连续性。
- 快速傅里叶变换(FFT):对加窗后的信号进行快速傅里叶变换,从而获得频谱信息。
- 梅尔滤波器组:使用一组梅尔滤波器对频谱进行过滤,这些滤波器模仿人耳对不同频率的敏感度。
- 对数运算:对过滤后的频谱取对数,以进一步模拟人耳的非线性响应特性。
- 离散余弦变换(DCT):最后,通过离散余弦变换将梅尔滤波器的输出转换成MFCC系数。
MFCC 提供了一种紧凑且有效的表示方法,能够捕捉到语音信号的关键特征,这些特征随后可以被声学模型用于进一步的语音识别处理。
2.2 感知线性预测(PLP)系数
PLP 系数是另一种特征提取方法,它旨在更精确地模拟人类听觉系统的特性。PLP 的设计基于对人耳听觉感知的深入理解,特别是在频率响应和响度感知方面。
与 MFCC 类似,PLP 首先通过一系列的滤波器来处理声音信号,这些滤波器试图模拟人耳对不同频率的敏感度。PLP 处理流程的关键步骤如下:
- 预处理:对信号进行预处理,包括预加重,以强调高频成分。
- 分帧和加窗:将信号分割成短帧,并为每帧应用窗函数,减少边界效应。
- 倒谱分析:对信号进行倒谱分析,这有助于捕捉信号的共振特性,即声音的"形态"。
- 等效矩形带宽滤波器(ERB 滤波器):使用等效矩形带宽滤波器代替梅尔滤波器,ERB 滤波器能更准确地反映人耳的频率分辨率。
- 对数压缩:对滤波后的信号进行对数压缩,以模拟人耳对不同响度级别的非线性响应。
- 线性预测:通过线性预测模型估计信号的频谱包络,这有助于捕捉语音信号的基频和共振峰。
- 离散余弦变换(DCT):最后,使用 DCT 将预测的系数转换为 PLP 系数,这些系数提供了对语音信号的紧凑表示。
PLP 系数通过这些步骤提供了一种对语音信号的感知加权表示,这使得语音识别系统在处理各种环境噪声时更加鲁棒。
2.3 MFCC 和 PLP 的比较
梅尔频率倒谱系数(MFCC)和感知线性预测(PLP)系数的对比表如下:
特征
| MFCC(梅尔频率倒谱系数)
| PLP(感知线性预测系数)
| 定义
| 一种基于梅尔刻度的倒谱系数,模拟人耳的听觉感知
| 一种基于人耳听觉感知的预测模型,用于提取语音特征
| 起源
| 基于对数功率谱的倒谱变换
| 基于线性预测模型的倒谱变换
| 滤波器
| 梅尔滤波器组,模拟人耳的非线性频率响应
| 等效矩形带宽(ERB)滤波器,更精确地模拟人耳频率分辨率
| 压缩
| 对数压缩,模拟人耳对响度的非线性感知
| 对数压缩,但与MFCC相比,PLP的压缩可能更符合人耳感知
| 变换
| 离散余弦变换(DCT)
| 离散余弦变换(DCT)
| 应用
| 广泛用于语音识别、语音编码、语音合成等领域
| 用于语音识别,特别是在需要更精确模拟人耳特性时
| 特点
| - 简单易实现
- 计算效率高
- 广泛使用
| - 更精确地模拟人耳特性
- 可能提供更好的噪声鲁棒性
- 计算复杂度略高
| 优势
| - 计算速度快
- 特征稳定,易于从语音信号中提取
| - 对噪声有更好的抑制能力
- 更符合人耳听觉特性
| 局限性
| - 对于某些语音特征的捕捉可能不如PLP精确
| - 计算上可能比MFCC复杂
- 实现起来可能更困难
| 适用场景
| 适用于需要快速且稳定特征提取的场合
| 适用于对语音质量要求较高,需要更精确模拟人耳特性的场合
|
2.4 其它特征提取方法
语音识别系统中的特征提取是至关重要的一步,它直接影响到识别的准确性和效率。除了感知线性预测(PLP)和梅尔频率倒谱系数(MFCC)之外,还有多种特征提取方法可以用于提高语音识别的准确性,以下是一些常见的方法:
- 线性预测系数(Linear Predictive Coefficients, LPC):线性预测分析通过建立一个线性差分方程来预测信号的当前样本值。LPC系数可以捕捉到语音信号的共振特性。
- 倒谱(Cepstral Coefficients):倒谱是通过对信号的功率谱进行对数变换和逆傅里叶变换得到的,它有助于强调信号的共振峰。
- 倒谱线性预测(Cepstral Mean Subtraction, CMS):CMS通过从倒谱系数中减去其平均值来减少噪声的影响,这在噪声环境下特别有用。
- Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC):虽然已经提到,但MFCC是语音识别中最常用的特征之一,它通过梅尔滤波器组来模拟人耳的听觉感知。
- 感知加权倒谱(Perceptually Weighted Cepstral Coefficients):这种方法通过考虑人耳对不同频率的感知权重来改进倒谱系数。
- Rasta-PLP(Relaxed-Atkinson Speech Transform-Perceptual Linear Predictive):Rasta-PLP是对PLP的一种改进,它通过预加重和滤波器组来减少噪声和提高语音特征的稳定性。
- 深度神经网络特征(Deep Neural Network, DNN Features):随着深度学习技术的发展,直接从原始语音信号中学习特征的深度神经网络也被用于语音识别。
- 频谱对比特征(Spectral Contrast Features):频谱对比特征通过分析频谱的局部最大值来捕捉语音信号的音调信息。
- 基频(Fundamental Frequency, F0):基频是语音信号中周期性波形的频率,它携带了说话人的音调信息,可以作为特征之一。
- 零交叉率(Zero Crossing Rate, ZCR):零交叉率是信号波形在正负之间交叉的次数,它可以提供有关信号节奏和音高变化的信息。
3 声学建模(Acoustic Modeling)
声学建模是语音识别系统的核心,它建立了音频信号(声音)与语音单位(构成语言的不同声音)之间的统计关系。目前,最常用的技术包括隐马尔可夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Network,DNN)。
3.1 隐马尔可夫模型(HMM)
自20世纪70年代以来,HMM已成为语音识别中不可或缺的工具。HMM通过将连续的语音信号分解为离散的音素(phoneme),并为每个音素分配一个状态,从而实现对语音的建模。模型通过计算从一个状态到另一个状态的转移概率来处理语音的时序特性。这种基于概率的方法使系统能够在噪声干扰和个体语音差异的情况下,从声学信号中推断出连续的语音流。
3.2 深度神经网络(DNN)
随着人工智能和机器学习技术的飞速发展,DNN已经成为语音识别领域的新宠。DNN不依赖于预定义的状态和转移,而是直接从原始数据中学习特征。它们由多层神经元组成,能够自动提取语音信号的高级特征表示。DNN通过捕捉语音中的上下文信息和复杂的声学模式,展现出比HMM更高的准确性和鲁棒性。此外,DNN能够通过额外的训练适应不同的口音、方言和说话风格,这在全球化和多语言环境中尤为重要。
3.3 其它声学建模技术
除了隐马尔可夫模型(HMM)和深度神经网络(DNN),还有几种常用的声学建模技术,它们在语音识别系统中各有其优势和应用场景:
- 高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model - Hidden Markov Model, GMM-HMM):GMM-HMM是HMM的一种,其中状态的输出概率密度由高斯混合模型定义,常用于传统的语音识别系统。
- 连接时序分类(Connectionist Temporal Classification, CTC):CTC是一种用于序列建模的损失函数,可用于训练DNN以进行序列识别,特别是在没有明确对齐的输入和输出序列时。
- 循环神经网络(Recurrent Neural Network, RNN):RNN能够处理序列数据,捕捉时间序列中的动态特征,适用于语音信号的建模。
- 长短期记忆网络(Long Short-Term Memory, LSTM):LSTM是RNN的一种,它通过引入门控机制解决了传统RNN的梯度消失问题,适合处理和预测时间序列中的长期依赖关系。
- 门控循环单元(Gated Recurrent Unit, GRU):GRU是LSTM的变体,它简化了门控机制,但同样能够学习长期依赖信息。
- 卷积神经网络(Convolutional Neural Network, CNN):CNN在图像处理中非常流行,但它们也可以用于语音信号的特征提取,尤其是在处理频谱图时。
- 深度置信网络(Deep Belief Networks, DBN):DBN由多层受限玻尔兹曼机(RBM)堆叠而成,能够学习数据的高维表示,可用于语音特征的提取。
- Transformer和自注意力机制(Transformer and Self-Attention):Transformer模型通过自注意力机制处理序列数据,能够并行处理序列中的所有元素,非常适合长距离依赖问题。
- 端到端的深度学习模型(End-to-End Deep Learning Models):这些模型直接从输入数据到最终输出进行训练,无需传统的声学特征提取步骤,例如直接从波形到词序列的模型。
- 注意力机制(Attention Mechanisms):注意力机制允许模型在处理序列数据时聚焦于输入序列的特定部分,提高了模型对上下文的理解能力。
4 小结
尽管语音识别技术已经取得了显著的进展,但仍存在一些挑战,需要我们继续努力。背景噪音、多说话人环境、多样的口音以及说话延迟等问题仍然是技术完善的障碍。为了克服这些挑战,工程师们正在探索创新的解决方案,其中包括结合隐马尔可夫模型(HMM)和深度神经网络(DNN)的优势的混合模型。
随着人工智能研究的不断深入,深度学习在各个领域的应用也日益广泛。传统上用于图像分析的卷积神经网络(CNN)在语音处理方面也展现出了巨大的潜力,特别是在处理频谱图和声学特征时。
另一个令人兴奋的进展是迁移学习的应用。这种方法允许在大型数据集上预训练的模型针对特定任务进行微调,即使是在只有相对较小的辅助数据集的情况下。这不仅减少了开发高性能语音识别系统所需的时间和资源,而且促进了更加环保和高效的模型部署策略。
此外,随着个性化和上下文感知模型的发展,未来的语音识别系统将更加智能,能够更好地适应用户的语音特征和环境变化。通过不断的技术创新和研究,我们有理由相信,语音识别技术将不断进步,为用户带来更加准确和便捷的体验。 |