搜狗展现唇语辅助语音辨认工作原理：准确率分明提升

360306199 · 2019-5-20 09:13:33

2017 年年底，搜狗在乌镇“世界互联网大会”上发布了经过唇语辨认辅助提升语音辨认准确率的初步成果，成为业内首家。近日，搜狗宣布发展一年多的唇语辨认模型的准确率，跟最后的 50%~60% 相比已有很大提升，并达到了可以将本来独立发展的唇语和语音辨认结合起来，构成“多模态”辨认的程度。

搜狗于 2016 年 4 月 22 日捐赠1.8亿元给王小川的母校清华大学，结合成立“清华大学天工智能计算研讨院”，努力于人工智能范畴的前沿技术研讨。本次公布的语音和唇语的多模态辨认正是由该结合研讨院主导。

相关论文《基于模态留意力的端到端音视觉语音辨认》在往年 5 月 12-17 日召开的国际声学、语音与信号处理会议（ICASSP）发表，这是由 IEEE 主办的国际语音辨认、信号处理学界的顶级会议。

搜狗方面对国外科技媒体“量子位”引见了论文次要内容。据引见，将唇语辨认加入单纯的语音辨认，需求克制两个次要成绩：一是协调音视频的不同帧率（普通音频为 100fps，视频为 24fps），二是合理确定音频和唇语内容对整个辨认结果分别贡献多大比例。

显然，这一比例绝不应该是固定上去的。有的时分，语音非常明晰可辨，此时视频内容搞不好反而带来干扰；另一些时分，语音比较模糊，这时才应该合理提升唇语辨认的比重。搜狗采用名为“基于留意力的编码器 / 解码器”的方法来动态确定当前时辰混用唇读和语音辨认的比例。

搜狗方面表示，该论文去年 6 月立项，10 月完成投递，其中接近一半工夫用来处理比例成绩。

在语音明晰可辨的环境中，视频的“留意力权重”约为 35.9%。当信噪比为 0dB（即噪音音量跟信号声响差不多大）时，视频的“留意力权重”提升到接近40%，此时“多模态辨认”的准确率相比明晰环境提高了30%。

在一段演示中，人们模拟在地铁运转环境中说话，同时记录下口型。单纯辨认语音的结果是“北京明天天气走”，单纯辨认唇语的结果是“嗯北京明天天气怎样样”，合起来即可得到正确结果“北京明天天气怎样样”。

语音交互技术中心首席迷信家陈伟估计，结合视频读唇的语音辨认能够会用于将来的搜狗手机输入法，及结合了摄像头的汽车车机导航等环境（也就意味着届时输入法将央求摄像头权限以提升辨认准确率）。

更详细的论文细节可以从原报道获得。

国际军棋网 · 2019-5-20 15:58:46

不太懂？有没有详细介绍？

DavidLeeNo4 · 2019-5-21 19:47:38

专业抢沙发的！哈哈

a382085363 · 2019-5-22 16:03:29

无论是不是沙发都得回复下

		自动登录	找回密码
密码			立即注册

搜狗展现唇语辅助语音辨认工作原理：准确率分明提升

大神点评3

最近发表

公社版块

关注我们