首祖先的声响是经过声道产生的,声道的外形决议了发出怎样的声响。假如我们可以准确的知道这个外形,那么我们就可以对产生的音素停止准确的描画。声道的外形在语音短时功率谱的包络中显示出来。而MFCCs就是一种准确描画这个包络的一种特征。
故我们在读取数据集的基础上,要将其语音特征提取存储以方便加载入神经网络停止训练。
在停止神经网络加载训练前,我们需求对读取的MFCC特征停止归一化,次要目的是为了加快收敛,提高效果和减少干扰。然后处理好数据集和标签定义输入和输入即可。
其中第⼀个维度为⼩⽚段的个数,原始语⾳越长,第⼀个维度也越⼤, 第⼆个维度为 MFCC 特征的维度。得到原始语⾳的数值表⽰后,就可以使⽤ WaveNet 完成。由于 MFCC 特征为⼀维序列,所以使⽤ Conv1D 进⾏卷积。 因果是指,卷积的输入只和当前地位之前的输⼊有关,即不使⽤将来的 特征,可以了解为将卷积的地位向前偏移。WaveNet 模型结构如下所⽰:
https://pan.baidu.com/s/1tFlZkMJmrMTD05cd_zxmAg
作者简介:
李秋键,CSDN博客专家,CSDN达人课作者。硕士在读于中国矿业大学,开发有taptap竞赛获奖等等。
欢迎光临 智客公社 (http://bbs.cnaiplus.com/) | Powered by Discuz! X3.4 |