搜狗结合清华发表顶会论文：声响+视频让语音辨认更准确

cnmaomaocn · 2019-5-20 07:53:07

晓查发自凹非寺

量子位出品 | 公众号 QbitAI

将来的人类如何与机器人交流？我们既需求机器人模拟人类的语气、表情、动作，异样也需求机器人能了解我们。

搜狗AI正在野着这一步迈进：由人类说一段话，AI根据唇形和语音准确辨认内容。最近搜狗与清华天工研讨院合作，在语音和唇语的多模态辨认方面获得了严重成果。

相关论文《基于模态留意力的端到端音视觉语音辨认》曾经发表在往年的学术会议ICASSP上。

ICASSP是全世界最大的，也是最片面的信号处理及其运用方面的顶级会议，是IEEE的一个重要的年度会议，对于信号处理方面的学术人士有着重要意义。

5月12日至17日，在英国布莱顿举行的学术会议上，搜狗的研讨人员汇报了他们的研讨成果，显示了搜狗在语音辨认、多模态辨认范畴的技术抢先性和原创实力。

语音+唇语辨认

随着语音辨认的疾速发展，纯粹靠声响的辨认技术越来越成熟，辨认准确率达到98%以上，很多公司，包括搜狗在内都推出了成熟的产品，比如搜狗输入法语音输入和搜狗智能录音笔等。

但是纯粹依托语音的辨认方式存在一个缺陷，就是无法在嘈杂环境下照旧保持较高的辨认准确率。

通常当语音环境比较安静时，语音辨认的准确率会比较高，但当语音环境较为嘈杂时，语音辨认的准确率会分明下降。

而视觉的辨认方法不受环境声响的影响，人在嘈杂环境下，听不清对方讲话时，会自然的盯紧讲话者的嘴巴，大致明白讲话者的意思。实践上听力妨碍人士，正是经过讲话者的唇语停止交流的。

搜狗研讨人员想到，假如让AI也能把这两种方法结合起来，就能提高语音辨认的准确率。
早在2017年年底，搜狗就曾经发布了一个唇语辨认的初步成果，是业内首家公展开现唇语辨认的公司。但当时的准确率仅有50%~60%，限制了它的实践运用，而且搜狗语音和唇语的技术也不断是分开做的。

经过一年多的发展，唇语辨认技术曾经有了很大的提升，搜狗团队末尾思索将听觉与视觉两种辨认的形式交融起来，即所谓的“多模态”辨认，这是搜狗唇语辨认继乌镇互联网大会发布后的新打破。

原理简介

但多模态辨认不是简单的把音频和视频的辨认叠加起来，在这个过程中，研讨人员需求克制两个难题。

1、音频和视频帧率不同

声响和视觉特征是两种本质上差异很大的模态，而且原始帧速率通常不一样，音频为每秒100帧，而视频为每秒24帧。

采用直接拼接的方法会形成信息损失，使得听觉特征在模型训练过程中起到主导作用，形成模型训练难收敛，视觉信息对听觉信息的提升有限。

2、如何选择音频和视频的贡献比例

在安静的状况下应该是语音占主导，在嘈杂环境下一定是视频占主导。如何根据不同的环境选择二者的比例。

搜狗的做法是 “基于留意力的编码器解码器”。在这个框架下，分别运用两个神经网络编码器对输入的不同模态的序列停止逐层特征抽取，得到高层特征表达。然后，由解码器分别对不同模态的特征表达停止留意力计算，得到声响和视觉模态信息中对应于当前解码时辰的上下文向量（context vector）。不同模态的上下文向量经由模态间的留意力自动对不同模态的信息停止交融，并输入到输入层得到解码输入。

可见在编解码框架下，由于交融的是不同模态的context vector，而不是对原始特征或者编码器输入的高层特征停止直接交融，处理了不同模态的特征长度不同的成绩。

同时，这种模态留意力（Modality Attention）根据不同模态各自的重要程度计算出相应的交融系数，反应了不同模态在当前解码时辰的不同贡献度，可以随着不同解码时辰的不同信噪比等得到不同的模态交融权重，得到愈加鲁棒的交融信息。

搜狗从去年6月末尾立项，10月就完成并投递了论文，在这个过程中，交融模型的设计是其中最困难的一步，研讨人员周盼引见说，他们在这个成绩上花费了大约一半的工夫。

实验结果证明了搜狗努力获得的报答。在信噪比为0dB（信号与噪声大小相当）时，搜狗的多模态辨认将准确率提高了30%。

而且模型在不同噪声下，表现出了对语音和视频两种不同模态间的依赖。随着噪声的提升，模型在交融音视觉时，对视觉信息的依赖比例在逐渐提升。

0dB信噪比时，视频的留意力权重接近40%，高于语音明晰环境中35.9%的比例。

运用前景

现场，搜狗像我们展现了一段Demo，模拟了各种嘈杂环境下的多模态辨认。

在模拟乘坐地铁的环境中，可以看到无论是单独的语音辨认和唇语辨认都无法正确还原原来的语句，但是二者结合起来，就可以正确辨认出“北京明天天气怎样样”这句话。

语音交互技术中心首席迷信家陈伟还特别指出，视频辨认还能根据唇形辨认语句在何处结束，也提高了在嘈杂环境下辨认的准确率。

这么适用的功能何时才能用上呢？陈伟估计，多模态语音辨认将在搜狗的手机输入法中集成，目前搜狗还在和车厂合作经过车内的麦克风、摄像头做出更准确的语音辨认。

输入法走向对话、搜索走向问答，是搜狗一项长期战略。将来视频辨认的场景会越来越多，所以搜狗以为多模态辨认是NLP研讨发展的一个必然的趋向。

当然，在搜狗畅想的将来中，多模态辨认的终极形状就是与AI分身的结合。

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。等待有才气、有热情的同窗加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

hywjp · 2019-5-20 13:56:47

路过的帮顶

oytt · 2019-5-21 19:30:06

嘘，低调。

朝花丶待夕拾 · 2019-5-22 15:25:21

传说中的沙发？？？哇卡卡

		自动登录	找回密码
密码			立即注册

搜狗结合清华发表顶会论文：声响+视频让语音辨认更准确

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们