找回密码
 立即注册
搜索

搜狗ICASSP论文:基于模态留意力的端到端音视觉语音辨认

雷锋网AI科技篇按:在近期举行的语音顶会 ICASSP 2019上,搜狗结合清华天工研讨院发表了一篇有意思的论文:基于模态留意力的端到端音视觉语音辨认。

简单来说,即引入「基于模态留意力的端到端」方法,无机地交融了语音和唇部动作信息,分明提高了嘈杂环境中语音辨认的效果。


论文链接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

我们知道,安静环境下语音辨认的正确率目前曾经可以达到98%以上,商业运用基本没太大成绩。但嘈杂环境(例如会厅、地铁环境)中语音辨认却难以获得理想的效果。

以0dB的噪声环境(噪声与信号强度相反)为例,DeepMind和牛津大学在CVPR2017上结合发表的研讨中,字符错误率(CER)为29.8%;近两年来,其他研讨在效果上也并没有得到分明地改善。而搜狗的这篇文章无论在方法上还是功能上都非常值得关注。

值得留意的是,这篇文章也是搜狗在唇语系列研讨中的新成果。2017年搜狗在第四届乌镇世界互联网大会上公展开现了远高于谷歌的唇语辨认技术,惹起业界的广泛关注。在当时“智东西”的采访中,搜狗语音交互中心技术总监陈伟就曾经表示了将探求唇语与语音辨认交融(而非采用麦克风阵列降噪)来提升在嘈杂环境中语音辨认功能的想法。这篇论文算是一个回应。

一、创新点

任何创新都是站在后人的肩膀上。

想想我们人类。当你听不清对方讲话时,会很自然地盯紧讲话者的嘴巴,这在一定程度上会协助你明白讲话者的意思,本质上这便是应用了讲话者唇部动作所携带的信息(也即唇语)。

在嘈杂环境下计算机该如何辨认说话内容呢?正如人类一样,处理方案是在语音基础上加入视觉信息,经过视、听模态信息的交融来加强语音辨认的效果,这被称为 AVSR(Automatic Visual Speech Recognition)。


应用唇部动作所携带的信息加强语音辨认的效果

这外面有两个难题。首先,语音和视频本质上完全不同的数据流,它们的原始帧速率通常是不一样的,如何将两种模态信息交融在一同则是一件具有应战性的成绩。

在深度学习以前,传统的方法通常是经过上采样或者下采样将两者变成相反帧速率直接拼接。

这样做的缺陷是:(1)会形成信息损失;(2)会使听觉特征在模型训练过程中起主导作用,形成模型训练难收敛,视觉信息对听觉信息的提升有限;(3)由于原始特征的长度较长,直接拼接的方法容易带来更大的计算量。

在深度学习时代,Noda等人在2015年提出了特征交融(而非之前数据拼接)的方式,即首先应用CNN将视觉特征提取出来,然后与语音特征停止交融成单一的特征。目前,这已成为AVSR的主流思绪。


来源:Noda, K., Yamaguchi, Y., Nakadai, K. et al. Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7

但两种特征如何交融才更有效呢?我们知道,唇语辨认的准确率在大多数状况下是远低于语音辨认的,不恰当的交融甚至能够会拉低语音辨认本来的效果。

DeepMind和牛津大学的研讨人员在2017年发表的工作(WLAS)中采用的思绪是:应用留意力编码器解码器框架,将相对应的声响和唇部上下文向量停止拼接后输入到输入层停止预测,如下图所示:


来源:Joon Son Chung, Andrew W Senior, Oriol Vinyals, and An- drew Zisserman, “Lip reading sentences in the wild.,” in CVPR, 2017, pp. 3444–3453.

ADAPT中心的George等人(arXiv:1809.01728v3,AV_align)的思绪是希望应用获取的唇部特征对音频特征停止补充修正,然后再用一个基于留意力的解码器对这个修正后的交融音视觉信息的特征停止解码:


来源:George Sterpu, Christian Saam, and Naomi Harte, “Attention- based audio-visual fusion for robust automatic speech recognition,” in Proceedings of the 2018 on International Conference on Multimodal Interaction. ACM, 2018, pp. 111–115.

综合思索这两种方法会发现,它们本质的不同不过是在何处停止交融而已。前者在解码器外部停止交融,后者在编码器的输入层采用留意力找到与当前听觉向量相关的视觉向量后,与听觉向量停止拼接。

另外一个难题是,在不同模态的特征交融过程中,该如何显式赋予恰当的权重以获得愈加鲁棒的交融信息。

我们知道,在噪声不同、说话人发音明晰程度不同的状况下,听觉和视觉所携带信息的比重是不固定的。因此,最好的方式自然该当是可以根据模态的信息含量来显式、自顺应地赋予权重。

在上述两项研讨中都没有显式的对两种模态信息赋予权重向量,模态之间的重要程度是在后续的网络衔接权重中学习得到的。搜狗的这篇文章次要处理的正是这个成绩。

不同于后面两者的是,研讨人员周盼与搜狗研讨员杨文文等共同设计了一个基于模态重要程度的留意力机制(模态留意力),使模型可以自顺应调整模态的权重来交融音视觉特征。


详细来说,即,在第t个解码步骤中,由解码器形状分别与音频编码器和视觉编码器停止留意力得出相应的声学context vector 和视觉context vector 后,不是将这两个模态的信息停止拼接,而是基于模态留意力,将二者停止交融,得到交融的context vector ,停止输入的预测。

这种在声响和视觉留意力之后,再添加一个模态留意力停止交融的方法有以下好处:

    Context vector 曾经包含了与当前输入相关的信息,比在原始特征停止交融愈加明晰有效;

    模态留意力得到的模态权重用来对二者停止交融,反应了模型以为不同模态在当前输入时的相对重要程度;

    模态间的交融系数可以依赖数据停止自动学习调整;

    在每一个解码步骤停止交融,相比在原始特征交融时,少了很多计算量。


二、训练及结果


根据以上模型,他们在150h电视旧事类音视觉数据上停止了训练。实验表明,这种模态留意力方法在0dB噪声状况下,可以对LAS的纯语音辨认获得相对36%的错误率下降。而且优于其他的音视觉结合方法(WLAS,AV_align)。不同系统在不同信噪比情形下的辨认错误率(CER)如下表:


注:

    LAS,Listen, Attend and Spell,即纯语音辨认;

    WAS,Watch, Attend and Spell,即纯唇语辨认,显然它不受噪声影响;

    WLAS,Watch, Listen, Attend and Spell,即DeepMind与剑桥大学结合提出的模型;

    AV_align,即George等人提出的模型;

    MD_ATT,基于模态留意力的AVSR系统

    MD_ATT_MC,在MD_ATT基础上添加Multi-condition数据

文章中也进一步分析了在不同噪声下,模型对两个不同模态间的依赖。随着噪声的提升,模型在交融音视觉时,对视觉信息的依赖比例在逐渐提升。


三、意义


这篇文章的意义在于提出了一个模态留意力的机制,动态地交融了音视觉模态特征,并在实验上分明提高了语音辨认的准确性和鲁棒性。

值得留意的是,这种方法具有普遍性,完全可以迁移到任何种类的多模态信息交融当中。另一方面,搜狗的技术毕竟是要用在产品当中的。业内在语音降噪的成绩上大多采用麦克风阵列的方式,搜狗则在尝试运用音视觉结合的方法,应用多模态辨认技术来提升噪声鲁棒性。

据陈伟表示,这项技术的功能曾经达到了可以商用的程度,目前两个能够的落地场景包括:1)语音输入场景,经过调用摄像头功能来提升嘈杂环境中语音辨认效果,将来搜狗输入法会上线该才能;2)落地到远场人机交互系统,特别提到了车载交互。据陈伟引见,搜狗目前正在与一些车企洽谈,经过添加摄像头(而不是添加麦克风阵列)来处理车载噪声场景(如开车窗下会有极大的噪声)下的语音辨认成绩。

雷锋网雷锋网

原文链接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

xzz111116 2019-5-20 15:02:23 显示全部楼层
未完待续哈哈!
回复

使用道具 举报

itbeach 2019-5-21 19:42:40 显示全部楼层
楼主永远支持你,无论怎样
回复

使用道具 举报

john7085 2019-5-22 15:44:17 显示全部楼层
路过 帮顶 嘿嘿
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies