找回密码
 立即注册
搜索

岂止于干货丨百度语音识别和唤醒技术解析(附资料下载)

随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。

在8月6号由百度开发者中心和InfoQ联合举办的第65期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

微信后台回复关键词「沙龙」,获取三篇主题演讲稿PPT下载链接。

百度语音开放技术最新进展及最新解决方案



个性化语音识别-离线命令词识别和自定义语义

来自百度语音开放平台的资深研发工程师魏力凯,目前负责百度开放平台的离在线语音、一体化唤醒和自定义语义等技术。他的分享主要分为以下四个部分:

    在线自定义

    离线自定义

    自定义语义

    语法编辑器

在线自定义,可以将不常见、不容易识别正确或者希望识别的更加准确的内容枚举到一个称为热词表的文本文件里,使得热词表里的内容能够精确识别,有了在线自定义,每一个开发者,每一个应用,每一台机器都可以有不同的识别策略;而离线自定义则提供了命令词识别的能力,这项能力使得在网络不好甚至完全没有网络的情况下,拥有高准确率的语音识别能力,比如车载环境;自定义语义则允许开发者定义想要的垂类,为了在没网的情况下也能使用,这项技术开始就是基于离线的。

新开放的这三项功能,一个解决在线识别不准确问题,一个解决了没网络的情况下不能识别的问题,而语义自定义则解决了所说的内容没法解析,或者说解析到错误的领域的问题。

最后,魏力凯还介绍了为上述新功能定制的语法编辑器,有了这款编辑器,可以使开发者更加便捷的使用上述技术。

百度语音唤醒技术解析及实践

接着,唐立亮通过一张图片,介绍了百度语音唤醒的流程:



首先用户要输入他们的语音,然后进行端点检测,把人说话的部分给检测出来,之后就是一个信号处理的过程,对信号进行一个非常好的噪音的处理,或者是其他方面的处理。接下来就是提取声学特征,进行识别解码,之后就是置信度判别,由于现在是一个唤醒+识别的系统,那唤醒成功之后需要送到服务器进行在线解码,最后获取到识别结果。

另外,唐立亮也提到,如何评价唤醒技术的好坏?非常重要的两个指标就是唤醒的正确率和误报率。 好的唤醒技术,唤醒的正确率很高,唤醒的误报率很低。

接着,唐立亮分享了百度语音唤醒的一些应用场景,包括手机APP替换用户常见操作、拍照、机器人、车载场景、智能家居、智能硬件等。

关于如何选择唤醒词,他也给出了以下建议:

    唤醒词可根据应用的个性化需求来订制

    每个词在3个字到5个汉字之间,4个字最佳

    音节覆盖尽量多,差异大,响亮

    建议选择不常用词语

    唤醒词评估系统,帮助合理选择您的唤醒词

最后,唐立亮介绍说,未来规划上,会考虑开发英文唤醒、打断唤醒、常用指令唤醒和远场唤醒这些优秀的技术,这些技术完成后也会争取第一时间放到平台上给大家使用。
百度技术系列沙龙,岂止于干货!

免费学习交流的机会,也是可遇不可求的!

戳阅读原文!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

cnmaomaocn 2022-5-22 07:00:21 显示全部楼层
是爷们的娘们的都帮顶!大力支持
回复

使用道具 举报

李艺丹 2022-5-23 09:37:40 显示全部楼层
话不多说,【抱拳了,老铁】。
回复

使用道具 举报

小莎莉 2022-5-23 16:04:07 来自手机 显示全部楼层
支持楼主,用户楼主,楼主英明呀!!!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies