找回密码
 立即注册
搜索

「专利解密」三星新专利:语音辨认技术新方法

【嘉德点评】该项专利的语音辨认技术属于改进后的端对端深度学习模型,改进的地方在于把传统的端对端的深度学习模型的语音文本输入端改成了目的标签输入端,而这目的标签输入端能很好的表现要辨认的对象言语的结构特性。

集微网音讯,语音辨认技术是指经过计算安装的分析来辨认或了解如人类发出的语音等的声学信号的技术。近年来随着基于深度学习(deep learning)的机器学习(machine learning)技术的成熟,各行各业末尾纷纷引入深度学习技术来寻务实践成绩的处理。

语音辨认技术的第一梯队公司三星公司便率先引入深度学习技术并结合应用反映了辨认对象言语的结构特性的学习数组的方法来提升运用语音辨认准确性。上述方法在三星公司的新专利“语音辨认方法”中被提出,其专利号(CN109215637A)。

图1 语音辨认安装结构图

三星公司提出的语音辨认次要是提供两个方面来提升辨认准确率的,第一是构建的深度神经网络声学模型,应用深度神经网络的弱小的特征提取才能来获取语音数据中的语音信息。第二个是应用了反映辨认对象言语的结构特性,从语音本质上出发去获取语音特征信息。接上去小编将详细的停止叙说三星公司的语音技术新方法。

该专利中提出的语音辨认安装如图1所示,包括学习数据获取部、目的标签构成部和声学模型构建部、语音输入部、目的标签预测部以及解码部。学习书籍获取部次要是用户获取构成目的标签的原始学习数据组如最后的语音文本。目的标签部从包含在原始学习数组中文本以反映辨认对象言语的机构特性的方法构成目的标签。声学模型构建部次要是构建关于深度神经网络模型的声学模型,用于辨认语音的输入和目的标签的预测输入。解码部次要是经过运用声学模型对输入的语音停止目的标签的预测输入,根据输入的预测来停止解码得到最终的言语文本。

图2目的标签构成部输入输入图

该专利中最核心的部分是运用目的标签构成部来应用对象言语的机构特性。目的标签构成部的输入输入图如图2所示。目的标签构成部120可将包含在原始学习数据组310中的文本以字母为单位停止分离并且当前述方式构成反映了辨认对象言语的结构特性的四个级别的目的标签。比如说,在辨认对象言语的字母本身作为一个文字运用的英语的状况下,当学习数据310a的文本为“ nice to meet you”时,学习数据330a的第一级别目的标签可由“nice$to$meet$you”构成。

在经过目的标签构成部的构造后,深度神经网络的输入端和输入端便有了却果。图3是声学模型的学习步骤流程图。首先,是获取原始学习数据组,经过将包含在原始学习数据中的文本信息以字母为单位停止分离来构成目的标签,作为声学模型的输入端。声学模型的输入端便是语音数据,经过学习包含在原始学习数据中的学惯用语音数据及目的标签,来训练声学模型。

图3 声学模型学习步骤流程图

三星公司中专利的语音辨认技术属于改进后的端对端深度学习模型,改进的地方在于把传统的端对端的深度学习模型的语音文本输入端改成了目的标签输入端,而这目的标签输入端能很好的表现要辨认的对象言语的结构特性。当然这也给整个系统带来了一定的复杂性,由于最终的声学模型的输入还需求经过一个对象言语解码端,但是该专利中的方法还是带来了语音辨认技术的准确性提高。

关键词:语音辨认,声学模型,语音结构特性,深度学习

专利号: CN109215637A

(校正/holly)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

LOveQzh倒数 2020-1-23 14:52:36 显示全部楼层
求沙发
回复

使用道具 举报

祭儡c 2020-1-24 15:34:28 来自手机 显示全部楼层
愣着干嘛,鼓掌啊
回复

使用道具 举报

n娃哈哈 2020-1-25 07:40:11 显示全部楼层
有点兴趣,要有详细介绍就好啦。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies