门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
语音机器人的基础能力有多强?一文带你了解语音识别技术 ...
返回列表
语音机器人的基础能力有多强?一文带你了解语音识别技术
[复制链接]
@Xizi_cA31Zj19
2022-6-29 20:16:06
显示全部楼层
|
阅读模式
要回答这个问题,我们需要从语音机器人的基础能力介绍起
1、语音机器人简介及挑战
语音机器人(电话机器人),主要包括两种形态:呼入,即由机器人来承接用户电话咨询业务;外呼,即由机器人主动发起电话,触达用户,从而完成语音对话。
不论呼入,还是外呼,核心都包括电话通信技术、语音识别技术、对话技术,从当前行业来说,由于电话通信技术比较成熟,语音机器人效果瓶颈主要在:语音识别技术、对话技术。要优化语音与对话的体验,核心主要包括两方面:一方面对用户的理解越来越准确,另一方面提供尽量顺畅的交互能力,最终达成好的交互体验和业务效果。
由于实际语音交互中,口语化表达、噪音干扰、短词短句等情况广泛存在,实际业务中对于用户声音转写为文本、很难达到一个比较好的效果。
2、语音机器人与用户交互模式
沃丰科技的语音机器人与用户交互,在用户声音输入后,通常包括几个处理流程:
ASR:Automatic Speech Recognition,自动语音识别技术,即将用户输入的声音信息转写成对应的文本
NLU:Natural Language Understanding,自然语言理解,可以简单理解为,解析文本中包含的意图/目的
DM:Dialog Management,对话管理,即基于NLU返回结果进行决策,确定机器人下一步行动,可能是回复某个答案、也可能是表示对用户问题的不理解,也可能需要对用户进行反问意图确认。
NLG:Natural Language Generation,自然语言生成,可以理解为,生成回复给用户的答案,需要注意的是,此时的答案还是文本形式。
TTS:Text To Speech,从文本到语音,即语音合成,把NLG生成的文本答案合成为语音答案,从而播放给用户。
由于整个对话的核心模块(NLU、DM、NLG)是完全基于文本操作的,所以丢失了一些语音模态的信息,如用户情绪化的语气就无法传递给模型,同时ASR也会给下游带来误差传播。
3、语音语义驱动让语音机器人更聪明
基于以上问题,阿里对于ASR和NLU,提出了语音特色的文本驱动对话。语音特色的文本驱动对话,本质是一个具有容错能力的模型,用户声音信息的理解,不在割裂为ASR和NLU两段,机器人可同时基于发音信息和语义信息来解决用户意思,在某些字有错误的情况下,由于模型同时包含了语音、语义信息,因而具有更高的容错能力。
基于语音语义驱动技术,阿里的机器人能更准确地理解用户的意思,成为更聪明的机器人。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
2
rice米生生
2022-6-30 07:01:42
显示全部楼层
不太懂?有没有详细介绍?
回复
使用道具
举报
Qiaoyi13143399
2022-7-2 19:16:08
来自手机
显示全部楼层
我也来顶一下..
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
@Xizi_cA31Zj19
金牌会员
0
关注
0
粉丝
100
帖子
Ta的主页
发布
加好友
最近发表
中关村论坛笔记④|人形机器人离量产还有多远?
什么是人形机器人真正的问题,头部大佬这么看……
2024北京车展| 机构:无人驾驶技术将开始新一轮应用探索
33款扫地机器人口碑:售价6350元的戴森口碑垫底,小米、科沃斯谁
“机器人”这种称呼该改一改了
打造无人驾驶、智能机器人全时巡检……北京将有人工智能街区了
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们