找回密码
 立即注册
搜索

搜狗展现唇语辅助语音辨认工作原理:准确率分明提升

2017 年年底,搜狗在乌镇“世界互联网大会”上发布了经过唇语辨认辅助提升语音辨认准确率的初步成果,成为业内首家。近日,搜狗宣布发展一年多的唇语辨认模型的准确率,跟最后的 50%~60% 相比已有很大提升,并达到了可以将本来独立发展的唇语和语音辨认结合起来,构成“多模态”辨认的程度。

搜狗于 2016 年 4 月 22 日捐赠1.8亿元给王小川的母校清华大学,结合成立“清华大学天工智能计算研讨院”,努力于人工智能范畴的前沿技术研讨。本次公布的语音和唇语的多模态辨认正是由该结合研讨院主导。

相关论文《基于模态留意力的端到端音视觉语音辨认》在往年 5 月 12-17 日召开的国际声学、语音与信号处理会议(ICASSP)发表,这是由 IEEE 主办的国际语音辨认、信号处理学界的顶级会议。

搜狗方面对国外科技媒体“量子位”引见了论文次要内容。据引见,将唇语辨认加入单纯的语音辨认,需求克制两个次要成绩:一是协调音视频的不同帧率(普通音频为 100fps,视频为 24fps),二是合理确定音频和唇语内容对整个辨认结果分别贡献多大比例。

显然,这一比例绝不应该是固定上去的。有的时分,语音非常明晰可辨,此时视频内容搞不好反而带来干扰;另一些时分,语音比较模糊,这时才应该合理提升唇语辨认的比重。搜狗采用名为“基于留意力的编码器 / 解码器”的方法来动态确定当前时辰混用唇读和语音辨认的比例。

搜狗方面表示,该论文去年 6 月立项,10 月完成投递,其中接近一半工夫用来处理比例成绩。

在语音明晰可辨的环境中,视频的“留意力权重”约为 35.9%。当信噪比为 0dB(即噪音音量跟信号声响差不多大)时,视频的“留意力权重”提升到接近40%,此时“多模态辨认”的准确率相比明晰环境提高了30%。

在一段演示中,人们模拟在地铁运转环境中说话,同时记录下口型。单纯辨认语音的结果是“北京明天天气走”,单纯辨认唇语的结果是“嗯北京明天天气怎样样”,合起来即可得到正确结果“北京明天天气怎样样”。

语音交互技术中心首席迷信家陈伟估计,结合视频读唇的语音辨认能够会用于将来的搜狗手机输入法,及结合了摄像头的汽车车机导航等环境(也就意味着届时输入法将央求摄像头权限以提升辨认准确率)。

更详细的论文细节可以从原报道获得。
回复

使用道具 举报

大神点评3

国际军棋网 2019-5-20 15:58:46 来自手机 显示全部楼层
不太懂?有没有详细介绍?
回复

使用道具 举报

DavidLeeNo4 2019-5-21 19:47:38 来自手机 显示全部楼层
专业抢沙发的!哈哈
回复

使用道具 举报

a382085363 2019-5-22 16:03:29 显示全部楼层
无论是不是沙发都得回复下
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies