找回密码
 立即注册
搜索

语音机器人的基础能力有多强?一文带你了解语音识别技术

要回答这个问题,我们需要从语音机器人的基础能力介绍起
1、语音机器人简介及挑战
语音机器人(电话机器人),主要包括两种形态:呼入,即由机器人来承接用户电话咨询业务;外呼,即由机器人主动发起电话,触达用户,从而完成语音对话。
不论呼入,还是外呼,核心都包括电话通信技术、语音识别技术、对话技术,从当前行业来说,由于电话通信技术比较成熟,语音机器人效果瓶颈主要在:语音识别技术、对话技术。要优化语音与对话的体验,核心主要包括两方面:一方面对用户的理解越来越准确,另一方面提供尽量顺畅的交互能力,最终达成好的交互体验和业务效果。
由于实际语音交互中,口语化表达、噪音干扰、短词短句等情况广泛存在,实际业务中对于用户声音转写为文本、很难达到一个比较好的效果。



2、语音机器人与用户交互模式
沃丰科技的语音机器人与用户交互,在用户声音输入后,通常包括几个处理流程:
ASR:Automatic Speech Recognition,自动语音识别技术,即将用户输入的声音信息转写成对应的文本
NLU:Natural Language Understanding,自然语言理解,可以简单理解为,解析文本中包含的意图/目的
DM:Dialog Management,对话管理,即基于NLU返回结果进行决策,确定机器人下一步行动,可能是回复某个答案、也可能是表示对用户问题的不理解,也可能需要对用户进行反问意图确认。
NLG:Natural Language Generation,自然语言生成,可以理解为,生成回复给用户的答案,需要注意的是,此时的答案还是文本形式。
TTS:Text To Speech,从文本到语音,即语音合成,把NLG生成的文本答案合成为语音答案,从而播放给用户。
由于整个对话的核心模块(NLU、DM、NLG)是完全基于文本操作的,所以丢失了一些语音模态的信息,如用户情绪化的语气就无法传递给模型,同时ASR也会给下游带来误差传播。
3、语音语义驱动让语音机器人更聪明
基于以上问题,阿里对于ASR和NLU,提出了语音特色的文本驱动对话。语音特色的文本驱动对话,本质是一个具有容错能力的模型,用户声音信息的理解,不在割裂为ASR和NLU两段,机器人可同时基于发音信息和语义信息来解决用户意思,在某些字有错误的情况下,由于模型同时包含了语音、语义信息,因而具有更高的容错能力。
基于语音语义驱动技术,阿里的机器人能更准确地理解用户的意思,成为更聪明的机器人。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

rice米生生 2022-6-30 07:01:42 显示全部楼层
不太懂?有没有详细介绍?
回复

使用道具 举报

Qiaoyi13143399 2022-7-2 19:16:08 来自手机 显示全部楼层
我也来顶一下..
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies