找回密码
 立即注册
搜索

谷歌提出基于端到端流模型的大规模多言语语音辨认模型


From:Google 编译:T.R

不断以来谷歌都希望可以高效组织世界的信息并让全球的人们便于获取,这意味需求保障各种言语运用者获取信息的便捷性。当这个愿景落地到谷歌助手一样的产品上时,可以了解多种言语的言语语音辨认技术就成为了研讨人员们需求面对的应战。

高质量的自动语音辨认系统需求大规模的音频和文本数据集,对于深度学习模型来说需求的数据更为庞大,但是很多言语却没有足够的数据。

那么对于那些多数言语来说如何保持语音辨认系统的功能呢?近年来的知识迁移研讨为这一应战提供了可行的方法,将数据丰富的言语上学到的知识复用到缺乏数据的言语上停止调优,而无需在新的言语上从头末尾。这一研讨范畴逐渐发展为多言语语音辨认,努力于开发出基于单个模型的多言语描画系统。


在刚刚结束不久的国际会议Interspeech 2019上,谷歌研讨人员提出了一种基于端到端的大规模多言语辨认方法,基于单个模型可以完成多种言语的实时辨认。并应用九种印度地方言语验证了这种方法可以有效提升缺多数据言语的辨认质量,同时也提高了数据丰富言语的辨认效果。

印度:丰富的言语大陆

研讨人员将研讨对象集中于印度的九种地区言语,这次要思索到了印度言语环境的多样性。在印度至少有一百万人运用的言语超过三十个,同时由于地理和文明的缘由这些言语还在发音和词法上存在重合。此外很多印度人都是会运用两种甚至三种言语,多言语的运用在对话中非常常见,这对于训练单一的多言语模型是一个自然的样本。


在这一研讨中,科研人员针对九种印度次要的言语停止了多言语模型的构建:Hindi, Marathi, Urdu, Bengali, Tamil, Telugu, Kannada, Malayalam 和Gujarati。


低延时的多言语模型

传统的自动语音辨认模型中声学、发音和言语等模块都是彼此独立的,当基于这种方法构建多言语模型时就会变得非常复杂和难以规模化。而端到端的模型则可以将语音辨认中的声学信号、发音和言语元素组合到单个神经网络中,保证了可以规模化运用和参数共享。

虽然最近的研讨工作将端到端模型拓展到了多言语上,但却还无法满足实时语音辨认,这正是谷歌助手、语音搜索所需求的。为了处理这一成绩,研讨人员选择了循环神经换能器(Recurrent Neural Network Transducer,RNN-T )来完成端到端的流自动语音辨认。但RNN-T系统每次只能像人类打字一样输入一个字符,也不支持多言语。这就需求基于它再停止改进,构造低延时的多言语语音辨认模型


克制大规模数据需求

由于数据不平衡,应用大规模真实数据对多言语模型停止训练非常复杂,多种言语的数据中各言语的分布了比例各不相反,这会使得训练集中占比大的言语辨认结果更为流利,会在模型全体上产生偏向,在端到端模型上会更为分明。下图显示了数据集中九种不同言语的占比。


研讨人员经过改造原先的架构来处理这一成绩。首先为输入添加了一个额外的言语辨认器,它作为一个独立的信号与音频信息同时输入,以独热编码的方式构成特征向量。模型不只用于区分言语同时也可以分离不同言语的特征向量,这将有效处理数据不平衡的成绩。


为了在全局模型中构建详细言语的表达,研讨人员经过加入残差顺应器模块为每个言语提供额外的参数。顺应器可以协助全局模型在每个言语上的调优,并保持单一全局模型的参数效率提升模型功能。

在这些改进的协助下,这一多言语模型的功能超过了单言语辨认器,特别对于数据量较少的言语来说功能提升更为分明。


同时这种流式端到端模型简化了训练和部署,可以有效的运用于语音助手一类的低延时运用。将来研讨人员将继续拓展研讨对象,不断添加对于世界各地用户的言语支持。


假如想了解更为详细的信息,可以在论文中找到更多细节和分析:

https://arxiv.org/pdf/1909.05330.pdf



来扫我呀

-The End-

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的运用场景,激活和完成全新的商业价值,服务于行业抢先企业和技术创新型创业公司。

将门技术社群专注于协助技术创新型的创业公司提供来自产、学、研、创范畴的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金专注于投资经过技术创新激活商业场景,完成商业价值的初创企业,关注技术范畴包括机器智能、物联网、自然人机交互、企业计算。在三年的工夫里,将门创投基金曾经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高长大潜力的技术型创业公司。

假如您是技术范畴的初创企业,不只想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者引荐项目给我“门”: bp@thejiangmen.com


点击右上角,把文章冤家圈

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

玥瑩 2019-10-11 19:05:43 显示全部楼层
赞赞赞赞赞赞赞赞
回复

使用道具 举报

劳追居何 2019-10-12 16:35:04 显示全部楼层
前排支持下
回复

使用道具 举报

candywei 2019-10-13 14:10:20 显示全部楼层
秀起来~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies