门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
逼近真人的语音,阿里语音技术片面晋级,移动端离线语音 ...
返回列表
逼近真人的语音,阿里语音技术片面晋级,移动端离线语音辨认及合成效果媲美云端
[复制链接]
大佐熊
2020-9-18 15:04:55
显示全部楼层
|
阅读模式
9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新打破:端上语音辨认和语音合成才能初次达到媲美云端的程度,这意味着将来个人用户在移动终端即可轻松体验逼近真人的语音技术。据引见,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模运用,正片面对外开放。
语音AI的核心是让机器听懂人话、并能启齿说话,语音合成和语音辨认技术是完成这些目的的基础。但由于过去几年业界在语音模型上未能有打破性创新,高精度的语音交互义务长期依赖云端算力,形成了语音指令处理不可避免的延时等成绩。
此次达摩院率先在算法模型上完成创新,推出E2E-ASR端到端语音辨认技术及全新的端上KAN-TTS语音合成技术,初次在移动终端上完成接近云端的语音辨认与合成效果。
据引见,在语音辨认方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音辨认框架,提升计算效率的同时,还将高难度场景中的语音辨认错误率降低近三成。达摩院研发的语音辨认系统,可纯离线、低成本部署在手机端,原型系统不到40MB,辨认效果媲美超过100GB的达摩院上一代DFSMN-CTC云端系统。
继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后,达摩院此次在移动端完成了对语音模型的"大瘦身",相比云端,端上模型大小紧缩了101倍,计算量紧缩35倍,经过终端算力即可疾速复现逼近真人的语音。例如,高德地图近期发布了应用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,语音效果较之前更自然,断网形状下语音导航也不会中缀。
达摩院语音实验室担任人鄢志杰表示,"在终端处理语音义务不断是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的才能,让终端也能轻松处理语音义务,我们置信,在终端算力和云端算力的协同支撑下,将来语音交互将无处不在。"
过去几年,阿里语音AI获得了一系列打破。2019年,阿里语音AI当选《麻省理工回复》"全球十大打破性技术",是独一上榜的中国科技公司;往年7月IDC发布的《中国AI云服务市场半年度研讨报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
小刘的书
2020-9-18 20:56:52
显示全部楼层
不聊了,又该去搬砖了。。。
回复
使用道具
举报
1无语in
2020-9-19 15:43:13
显示全部楼层
支持你哈...................................
回复
使用道具
举报
我是你野爹
2020-9-20 14:57:36
显示全部楼层
呵呵,低调,低调!
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
大佐熊
高级会员
0
关注
0
粉丝
79
帖子
Ta的主页
发布
加好友
最近发表
定档8月16日 | 2024亚洲智能穿戴大会
华为智能眼镜 2评测:可能是上班族最好用的智能穿戴
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们