找回密码
 立即注册
搜索

基于深度自编码器神经网络完成语音辨认的预训练方法

(此处已添加圈子卡片,请到昔日头条客户端查看)


深度自编码器神经网

深度自编码器神经网也是一种无监督模型,其输入向量与输入向量同维,训练的目的是使其目的值等于输入值,即尝试逼近一个恒等函数。这样就可以将其隐层激活值看作为对原始数据的紧缩表示或有效编码。通常也采用逐层贪心训练法来训练深度自编码器神经网。每次采用基于随机梯度下降的BP算法来训练仅一个隐层的自编码器神经网,然后将其堆叠在一同构成深度网络。这样的深度自编码器网络也被称为栈式自编码器神经网络。其训练过程如下:先应用原始输入数据训练一个单隐层自编码器网络,学习其权重参数,从而得到第一个隐层。然后将其隐层神经元激活值组成的向量作为输入,继续训练一个新的单隐层自编码器网络,从而得到第二个隐层及其权重参数,以此类推。异样,最后添加一个Softmax层作为输入。这样也能构成一个自下而上的前馈深层且具有区分性的DNN,并能得到其网络参数的一个有效初值,可以对其停止进一步的基于BP算法的有监督精调训练。




DNN-HMM

对DNN首先停止无监督的预训练,然后停止有监督的调整是DNN-HMM声学模型可以成功运用于语音辨认义务,并在功能上超越GMM-HMM的次要缘由之一。无监督预训练避免了有监督训练时常常过拟合于泛化才能很差的部分极值点的成绩,而逐层的贪心训练补偿了梯度消逝成绩带来的影响。但是深度学习技术发展迅猛,从近年的研讨停顿看,预训练的重要性日益降低:① 运用海量数据停止训练能有效避免过拟合成绩,Dropout等随机优化算法的出现,也极大提高了DNN模型的泛化才能;② 采用整流线性单元(Rectified Linear Units, ReLU)作为激活函数,以及采用卷积神经网络(Convolutional Neural Networks, CNN),这种深度网络结构也成功的减小了梯度消逝成绩的影响。下面将简短引见一下ReLU和CNN。

ReLU

相关的研讨表明,采用基于ReLU激活函数的DNN与基于Sigmoid激活函数的DNN相比,不只可以获得更好的功能,而且不需求停止预训练,可以直接采用随机初始化。其函数表达式如下:




CNN

近年的研讨显示,基于CNN的语音声学模型与传统DNN的模型相比,可以获得更好的功能,究其缘由在于:① CNN具有部分衔接和权重共享的特点,以及很好的平移不变性。因此将卷积神经网络的思想运用到语音辨认的声学建模中,就可以应用卷积的不变性来克制语音信号本身的多样性,如说话人的多样性(说话人本身及说话人世)、环境的多样性等,从而加强声学模型的顽健性。② CNN也是一个更合适对大数据停止建模的深度网络结构,尤其是近几年来,以ResNet和Highway网络为代表的深度CNN的研讨工作,对语音辨认的研讨起到了很好的促进作用。




CNN是一种经典的前馈神经网络,是受生物学上感受野机制启示而来。它本质上是一种基于有监督学习的数学模型,由多个卷积层和池化层交替出现构成整个网络的前端,用于特征提取和表示,在后端由多个全衔接层用于对提取到的部分特征停止全局上的整合与变换。网络的最终输入会根据义务的不同而动态调整。与传统的DNN网络结构相比,CNN可以从大量的训练数据中提取有效且泛化才能强的特征,因此非常合适于分类义务。

一个典型的CNN网络结构如图所示,其中卷积层是整个网络最为核心的部分,它经过卷积核对输入停止卷积操作以获取输入。这里可以将卷积操作了解为线性加权运算,卷积层的输入称之为特征图。普通会采用多个卷积核来学习不同层次的特征,这样便会得到多个特征图。不同于全衔接网络,卷积层的卷积核只会与输入中的某些部分区域相衔接,这样不只能有效降低网络的衔接数量,而且也可以获取丰富的部分结构化特征。此外,对于同一层之间相反的卷积核会共享参数,进一步降低了需求训练的网络参数的规模。在卷积层,特征图也要经过激活函数停止非线性处理,在CNN中普通也采用ReLU作为激活函数。

池化层

池化层又称为下采样层,它次要对上一层得到的特征图停止紧缩。在实践运用中以最大池化(Max-Pooling)和平均池化(Average-Pooling)最为常见。最大池化会对池化域内的特征点取最大值,而平均池化则对池化域内的特征点取平均值。池化操作不只能分明紧缩数据规模,减少训练参数,更重要的是它能使网络获得某种不变性,以加强本身的顽健性。就语音辨认而言,它可以使辨认系统对因噪声带来的频率偏移,以及不同说话方式带来的平移有一定的容错才能。

全衔接层

全衔接层就是普通的前馈网。CNN在完成卷积或者池化后普通需求接入全衔接层,但在此之前需求完成光栅化操作。所谓光栅化是指将最后输入的特征图依次展开,重新构形成一个特征向量。全衔接层可以将卷积和池化操作后提取到的部分特征在更高的维度上停止全局的信息整合。

CNN也是一种前馈神经网络,它的训练算法也是基于链式法则求梯度,然后用随机梯度下降方法求优。计算梯度的过程与传统的BP算法非常相似,即首先前向计算误差项,然后再停止误差的反向传播。只不过由于池化层经过下采样操作对输入数据停止了紧缩,这就需求在误差的反向传播过程中,采用上采样函数将误差矩阵还原至紧缩之前,并重新对误差停止分配。

总结

这是关于深度学习在语音辨认范畴中的一个经典模型的引见,这些内容也是《语音信号处理(第3版)》的部分内容,不断以来语音交互被以为是人工智能的基石,具有广大的发展空间,假如你对语音这一AI范畴存在兴味,激烈引荐本书,书中片面阐述语音信号的生成、处理、紧缩、传输、合成、辨认与了解!




本书是进入该范畴非常棒的一本书,激烈引荐本书,京东购买链接为¡¶ÓïÒôÐźŴ¦Àí£¨µÚ3°æ£©/È˹¤ÖÇÄÜ¿ÆѧÓë¼¼Êõ´ÔÊé¡·(º«¼ÍÇ죬ÕÅÀÚ£¬Ö£ÌúÈ»)¡¾ÕªÒª ÊéÆÀ ÊÔ¶Á¡¿- ¾©¶«Í¼Êé

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

人工智能之语音信号处理
回复

使用道具 举报

K2RWW 2019-5-30 15:04:36 显示全部楼层
众里寻他千百度,蓦然回首在这里!
回复

使用道具 举报

晕菜 2019-5-31 14:32:55 显示全部楼层
边撸边过
回复

使用道具 举报

小小美子 2019-6-1 15:07:34 来自手机 显示全部楼层
顶顶更健康
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies