人工智能新课——语音辨认技术

看不到角 · 2020-6-16 09:27:42

语音辨认是十年来发展最快的技术之一，随着AI的不断发展，深度学习让语音辨认技术得到了质的飞跃，末尾从实验室走向市场，并逐渐走到人们的生活中。

我们如今所用的语音输入法，以及以语音为智能交互入口的智能家居，背后都触及到语音辨认技术。

语音辨认技术的发展历程

语音辨认技术是指机器自动将人的语音的内容转成文字，又称 Automatic Speech Recognition，即ASR技术。

语音辨认是一门交叉的、非常复杂的学科，需求具有生理学、声学、信号处理、计算机迷信、形式辨认、言语学、心思学等相关学科的知识。

语音辨认的研讨是个漫长而且艰难的过程，它的发展可以追溯到20世纪50年代，1952年贝尔实验室初次完成Audrey英文数字辨认系统，这个系统当时可以辨认单个数字0～9的发音，并且对熟人的准确度高达90％以上。

在同时期，MIT、普林斯顿相继推出大批词的独立词辨认系统。

1971年美国国防部研讨所（DARPA）资助了五年期限的语音了解研讨项目，推进了语音辨认的一次大发展。DARPA在整个科技的发展过程中扮演了非常重要的角色，它专门给高科技研讨项目提供资金支持，包括无人机、卫星等等。

在DARPA的支持下，IBM、卡内基梅隆大学（CMU）、斯坦福等学术界和工业界非常顶级的研讨机构也都加入到语音辨认的研讨中去。

其中，卡耐基梅隆大学研发出harpy语音辨认系统，该系统可以辨认1011个单词，在这个时期大词汇量的孤立词辨认获得本质性停顿。

到了1980年，语音辨认技术曾经从从孤立词辨认发展到延续词辨认，当时出现了两项非常重要的技术：隐马尔科夫模型（ HMM ）、N-gram言语模型。

1990年，大词汇量延续词辨认持续提高，提出了区分性的模型训练方法MCE和MMI，使得语音辨认的准确度日益提高，尤其适用于长句子的状况下，与此同时，还提出了模型自顺应方法MAP和MLLR。

在工业方面，剑桥推出首个开源的语音辨认训练工具HTK，在商业方面，Nuance发布了首个消费级产品Dragon Dictate。

到了21世纪，随着深度学习的不断发展，神经网络之父Hinton提出深度置信网络（ DBN ），2009年， Hinton和先生Mohamed将深度神经网络运用于语音辨认，在小词汇量延续语音辨认义务TIMIT上获得成功。

语音辨认的技术原理

从20世纪80年代末尾，如今语音辨认采用形式辨认的基本框架，分为数据预备、特征提取、模型训练、测试运用这4个步骤，在这里我们次要来讲解下模型训练和测试运用。

模型经过训练之后，一段待测的语音需求经过信号处理和特征提取，然后应用训练好的声学模型和言语模型，分别求得声学模型和言语模型得分，然后综合这2个得分，停止候选的搜索，最后得出言语辨认的结果。

公式表达如图所示

接上去我们来看下言语模型，言语模型的物理意义反映字词出现的先验概率，比如“郝”和“好”，这两个字发音相反，但“郝”相对于“好”来说，出现的概率较低，普通都会出如今姓氏里。

除此之外，言语模型的物理意义还在于反映词顺序能否符合言语习气和反映词的语义信息。
了解了言语模型的物理意义，我们来看下言语模型的建模，传统言语模型采用N-gram的做法，言语模型是对文本序列的先验概率停止建模，用以下公式表示：
()=(1 2 …w )=(1 )(2│1 )…( |(1:−1))

我们按照全概率空间展开，可以表示为第一个词出现的概率(1)乘以第一个词出现之后，第二个词的概率(2│1 )，以此类推不断到第n个词。

对于这样一个全概率空间，我们对它停止N-阶马尔科夫假设，即每个词出现的概率只和最近的N个历史词有关，根据这样一个假设，下面表示先验概率中的每一项都可以做这样一个近似：

比如我们需求求1-阶马尔科夫假设，用以下公式即可很方便的算出结果：

这样一种看似很简单的非参数的计算方法，却从20世纪的80年代不断沿用到明天。
在深度学习出现之后，逐渐出现了另一种言语模型——RNNLM。
RNNLM言语模型的流程，之前我们提到过先验概率可以按照全概率空间停止展开，我们对公式中间的每一项都采用同一种深度学习模型来建模，就可以表达成如下结构：

说完了言语模型建模，接上去我们来说下声学模型建模，给定了相应的文本序列之后，生成相应的语音，这是语音辨认技术中最核心的也是最复杂的部分。
为了减少同音词的数据共享成绩，首先我们会将文本序列转化成它的发音序列，做这一步的目的就是加强建模单元的共享性。
在我们对每一个发音单元，比如“xue”外面的韵母做建模的时分，我们的语音具有不定长的特性，我们说的快和说的慢的时分，语音帧的时长是不一样的，对于这种不定长的语音建模，这个时分就需求引入HMM模型。

HMM模型每一个语音帧让我们的每一个语音帧都对应到HMM模型中的每一个形状，不论多长的语音都可以表达为HMM模型的一个形状序列。
最后只需将HMM模型中的序列和我们语音中的每一帧停止逐一对应。再将这个对应关系，用一个概率来表达就可以了。
我们知道语音其实是非常复杂多变的，不同的人在说异样的句子的时分，会表现出非常大的差异性。
1980年代的时分，由于计算条件的限制，业内普通采用GMM声学模型，到了2010年深度学习技术兴起，DNN声学建模末尾取代GMM声学建模。

语音辨认技术的典型运用

语音辨认技术早期的运用次要是语音听写，用户说一句，机器辨认一句。后来发展成语音转写，随着AI的发展，语音辨认末尾作为智能交互运用中的一环。
下面我们就来逐一引见这些运用：
首先我们来看下语音听写，语音听写中最为典型的案例就是讯飞输入法，除此之外，语音听写的运用还有语音病例系统。
医生佩戴上讯飞定制的麦克风，在给病人诊断时，会将病情、用药、需求留意事项等信息说出来，机器将医生说的话自动辨认出来，生成病例。

关于语音转写的运用，我们也举两个产品的例子，一是讯飞语记，另一个是讯飞听见。
讯飞语记是一款APP，它可以将我们所说的语音记录成文字，讯飞听见会议系统可以实时的根据演讲者所说的内容准确辨认出来，并且实时投影在我们的大屏幕上。
关于语音交互的产品有很多，比如讯飞推出的讯飞翻译机、可以和小冤家停止互动的阿法蛋、以及可以停止聊天交流的叮咚音箱等。

打喷嚏了 · 2020-6-16 15:02:08

楼猪V5啊

Vagrancy_SOUL · 2020-6-18 10:30:50

一直在看

螺陀 · 2020-6-18 20:30:27

看帖要回，回帖才健康，在踩踩，楼主辛苦了！

火车站安检人员 · 2020-6-18 20:30:29

高手云集果断围观

		自动登录	找回密码
密码			立即注册

人工智能新课——语音辨认技术

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们