找回密码
 立即注册
搜索

百度语音辨认新算法准确率提升超30%,鸿鹄芯片彰显AI落地新打法

机器之心报道
作者:一鸣

往年 7 月,在开发者大会上,百度公布了其在 AI 技术上的停顿。而短短四个月后,在昨日的百度语音才能引擎论坛上,百度在语音范畴再次公开了最新的算法成果。异样引人关注的还有百度鸿鹄芯片的最新停顿。

昨日,百度语音才能引擎论坛在北京召开。在论坛上,百度展现了其在语音技术上的最新成果,并公开了语音公用终端芯片——百度鸿鹄的落地状况。此外,机器之心也采访了百度语音首席架构师贾磊。百度经过本次发布阐明,深度学习端到端技术依然大有发展空间,软件驱动公用芯片设计成 AI 落地新打法。

语音才能 100 亿次日调用,百度大脑势头正劲

论坛末尾,百度 CTO 王海峰博士公布了百度在语音技术方面的最新成绩单。目前,百度语音技术的日调用量已打破 100 亿。




而目前,百度大脑已开发 AI 才能 228 项,接入开发者数量超过 150 万,现已成为国内最大的 AI 开放平台。

王海峰博士还引见了百度在 AI 方面的两大目的,即「退化」和「赋能」。经过技术的不断退化,推进 AI 的进一步发展,同时经过赋能合作厂商和开发者的方式,创造活跃的 AI 生态环境。

在发布会上,百度语音辨认新算法和百度鸿鹄芯片的最新停顿最有目共睹。它们无疑是对退化和赋能两词最好的注解。

完全端到端,深度学习再次颠覆语音辨认

在论坛上,百度语音首席架构师贾磊引见了百度近一段工夫的语音技术打破。其中最受注目的便是百度最新研发的「基于复数 CNN 网络的语音加强和语音辨认一体化建模」技术。

现有方法面临瓶颈

目前次要的远场语音辨认方案次要将语音辨认分为两个步骤:数字信号处理和语音辨认。详细而言,用户首先需求对语音辨认终端停止唤醒,当设备收到信号后,采用声学模型和硬件对波束来源停止定位,定位后再继续接收目的声响。

接收到目的声响后,辨认终端经过方位信息,加强目的信号并压制干扰信号,从而将加强后的信号,输入到语音辨认声学建模模块中。

这一方法次要存在两个成绩。首先,语音加强算法大都是基于 mse 准绳优化语音的听觉感知,听觉感知变得更明晰,并不一定对应辨认率提升。其次,此方法需求首先唤醒语音辨认终端,并要求说话者的地位保持固定。假如在辨认过程中目的信号源发送移动,或波束方向上存在噪声,则辨认准确率会大幅下降。

深度学习让信号处理和语音辨认终成一体

而百度提出的新算法不再需求初次唤醒。在辨认末尾时,目的声响信号直接被多路麦克风输入到模型中,采用复数个 CNN 网络提取声响信号中的多种特征,包括不同麦克风输入信息的特征,和跨频率耦合的声学特征。在这一过程中直接完成了前端声源定位、波束构成和加强特征提取。特征提取后,直接停止声学建模,并生成最终的文字结果。

据贾磊引见,这一算法从根本上打通了前端的信处理和后端语音辨认过程,真正完成了端到端的语音辨认处理方案。该算法具有以下优势。其一,这一算法不需求事前根据前一个唤醒词的方向来定人的说话方向,定出人说话方向之后,再做波束生成,这样的话,波束生成只能对下一句话的唤醒或者是辨认有提升作用。这个方法是根据当前唤醒词或者是语音指令,一次性的同时做声源定向和波数生成。使得当前这一个次唤醒或者是辨认就可以分明提升。

其次,由于运用 CNN 网络捕捉多种特征,因此可以最大程度捕捉声响波形中的最本质特征信息,尤其是跨频波形特征等,因此可以模型具有更好的学习才能,功能也更好。

另外,模型最终端到端直接输入文字结果,经过字错误率停止调优,因此可以最大限制上优化模型功能。

由于没有了波束定位的环节,这一方面面临的应战在于,如何可以区分多个声响源,并只辨仔细正的目的声响源。

在采访中,贾磊提到,在多个声源存在的状况下,该算法可结合语义信息停止区分。这是由于算法中交融了 SMLTA 架构,可以停止从语音到言语文字的映射,因此可以学习到语义知识。在辨认过程中,算法可根据语义,选择正确的 query。

据悉,这一算法的辨认准确率(即字错误率)提升超过 30%。和百度鸿鹄 AI 芯片配合运用的状况下,甚至可以提升更多。

在语音转文字方面,百度公开了 SMLTA 算法方面的最新成果。目前该算法可以辨认更多方言、中英文混输等场景上也进一步提升。经过和端到端方法结合,百度已彻底完成了从语音输入、信号处理和加强、语音辨认到文字输入的完全端到端深度学习处理方案。

此外,论坛上,贾磊也引见了百度在语音合成方面的技术停顿。经过 WaveRNN 算法的进一步改进,模型可提取人声中的通用特征,结合被合成者特有的声学特征,最终输入合成语音结果。

目前百度已完成无监督的语音合成模型训练,并运用于百度地图产品上。用户只需求输入 20 句话,就可以运用合成语音停止地图导航等操作。

百度鸿鹄芯片:用硬件落地算法

除了最新的语音技术停顿,百度也公开了百度鸿鹄芯片的最新停顿。百度鸿鹄芯片是百度第一款专门针对语音技术范畴开发的 AI 芯片,是百度推进语音辨认才能落地运用的新打法。

语音才能集于一芯

据百度度 AI 技术生态部总经理喻友平引见,百度鸿鹄芯片已集成了语音方面的一切才能,包括波束定位、语音信号加强、回声处理、降噪、语音辨认等方面的一切功能。整个芯片提供了残缺的处理方案。

目前,百度鸿鹄芯片已提供了相关的硬件模组,包括安卓开发板等。同时,百度也约请到了合作厂商,展现集成了百度鸿鹄芯片的智能家电——如创维智能电视等,在语音辨认赋能后产生的新交互体验。

目前,百度曾经完成了百度鸿鹄的智能音箱的产品原型。产品运用双麦克结构,将百度鸿鹄芯片作为语音处理芯片,来处理一切的语音的功能和义务,并最终集成到远场语音交互方案中。

公用芯片让语音辨认模型真正落地

为什么要为语音技术设计公用芯片,经过发布可以看到,百度鸿鹄芯片可以满足了落地深度学习算法的要求。首先,深度学习需求大量的内存占用、计算并行化才能,更要求芯片的 Cache 足够大,模型的加载速度要够快。ARM 架构的通用芯片在这些目的上多有不及,只要专门为深度学习设计的架构和指令集可以让模型在公用硬件上发挥更好的功能。

同时,相比 ARM 架构芯片,百度鸿鹄芯片可以愈加低功耗。百度本次发布的新算法在百度鸿鹄芯片上,在待机形状下功耗不足 100mW。我国节能家电标准要求待机形状功耗不高于 0.5W,有了百度鸿鹄芯片,各类家电可以集成语音辨认才能,也同时满足节能家电的认证标准。

据贾磊引见,本次公开的端到端算法在百度鸿鹄芯片上只占用 200K 的内存,可完全完成终端语音辨认功能。

这样一来,以百度鸿鹄芯片为载体,以算法为核心,百度完成了经过提供硬件和算法的方式,将语音才能赋予合作商和开发者,完成了全体处理方案的开源开放。

本次论坛上,百度还引见了其语音生态中的很多新产品和运用,阐明了百度 AI 生态的日臻成熟。

语音技术落地表现百度新打法

经过本次论坛发布可以看出,百度的 AI 落地新打法已呼之欲出。在新技术的开发上,百度片面采用深度学习方式,进一步扩展 AI 才能和运用场景。在技术的落地环节,则经过软件驱动硬件发展的方式,让公用硬件承接算法模型,最终完成技术赋能。

深度学习推进跨学科交融

在谈到基于复数 CNN 网络的语音加强和语音辨认一体化建模技术时,贾磊表示,这一技术阐明了深度学习在推进跨学科交融方面的才能。

换句话说,经过端到端技术,百度完成了信号处理和语音辨认两个部分的交融。在前端信号处理的过程中,不再需求思索声学模型和相关的先验知识,从语音信号的输入到输入文字完全模拟人类的认知过程。

采访中贾磊表示,虽然目前深度学习看似进入到了「平台期」,但在端到端跨学科整合方面,其仍有很大的发展空间。

软件驱动芯片设计

在算法落地赋能方面,可以看到百度用「软件驱动芯片设计」的发展战略。在百度大脑开放了众多 AI 才能的时分,百度根据算法对硬件的要求,定制相应的硬件设备。相比传统的芯片厂商,这些公用芯片都是根据模型的大小、特性和计算方式特殊定制的,只要掌握算法细节的厂商才可以定制开发。

这样的算法落地方式无疑有着独特的优势。首先算法可以和硬件深度结合,经过硬件开放的方式交融到各类场景中,发挥最佳的功能。

此外,硬件可以提供更为端到端的处理方案,分明降低算法落地的成本。例如,百度鸿鹄芯片整合了语音辨认中的一切才能,提供了综合的处理方案。这样在落地算法的过程中,合作商不再需求关怀各种算法的运转状况,以及和硬件适配的相关成绩。

同时,公用芯片的功耗更低,在保证模型功能的同时,不会对集成的系统(如家电产品等)带来很高的功耗。

从这些新打法中可以看出百度的坚持和创新探求。不变的是百度对深度学习算法的坚持。即便目前深度学习看似进入平台期,但百度持续推进深度学习以端到端的方式进入新的场景,逐渐取代需求过去传统学科长期积累和大量先验知识的范畴。

与此同时,百度仍在探求 AI 落地的新方式。鸿鹄芯片的公布无疑是其以互联网企业的方式进入到芯片设计范畴的新思绪。围绕算法对算力和硬件的需求,定制公用的硬件,让算法更好地发挥功能优势,也在同时降低厂商合作落地 AI 的成本和门槛,完成其让 AI 退化和赋能行业生态的目的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

oO泡泡之神Oo 2019-11-29 12:46:54 显示全部楼层
鸿鹄语音芯片也是百度的杰作,软硬一体化就是强
回复

使用道具 举报

坏蛋三号 2019-11-29 12:50:00 显示全部楼层
百度语音辨认的准确率越来越高了
回复

使用道具 举报

薰轩 2019-11-30 08:25:16 显示全部楼层
还有没有详细介绍?
回复

使用道具 举报

13553204245 2019-12-1 17:13:26 显示全部楼层
LZ敢整点更有创意的不?兄弟们等着围观捏~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies