门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
36氪首发|将中文语音辨认率提升至96.29%, 依图科技跨范 ...
返回列表
36氪首发|将中文语音辨认率提升至96.29%, 依图科技跨范畴推出语音开放平台
[复制链接]
河鞋社会7
2020-6-5 13:19:51
显示全部楼层
|
阅读模式
计算机视觉(CV)是AI范畴一大吸金赛道,也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然言语处理(NLP)行业。
12月11日,依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台,并和华为发布了“智能语音结合处理方案”。
其实早在2016年,当计算机视觉公司刚末尾吸引投资人留意时,语音辨认就末尾规模化场景落地。现如今,百度、腾讯、京东、小米纷纷发布智能音箱,各种手机搭载语音交互,智能翻译工具、智能客服等语音类产品层出不穷。
那么,相比同类产品,依图语音技术的比较优势和市场空间会在哪里?在将来产品化落地上,依图会有怎样的规划?
围绕这些成绩,36氪独家专访了依图科技首席创新官,前Google Research Scientist吕昊博士。
依图科技首席创新官吕昊博士
的确,这个工夫点进入语音行业应战重重,一则先发优势不再,二则市场拥堵,科大讯飞、BAT大厂纷纷入局,从技术上升到平台生态,市场空间看似余地不多。
对此,吕昊表示:依图团队对国内现有的语音辨认技术都做了调研,发现
在不少场景下,语音辨认效果并不理想,例如通话过程中的声响转写准确率低、远间隔的声响采集辨认效果差、语料数据积累不足等。因此,依图会从这些可优化空间动手,对模型算法停止打磨,提升辨认率,降低字错率。
在语音辨认范畴,15%的字错率是一条红线,超过则基本不具有可读性,而低于3%则是可以被以为具有类人的语音辨认才能。
但是,在实践说话过程中,人的语速、语气、口音、语态等都会影响辨认准确度。此外,不同于英文,中文复杂的言语元素,以及同音不赞同等成绩为语音辨认带来了更大的应战。那么依图如何应对呢?
吕昊告诉36氪:当前业内缺乏系统性的标准测试和测试集,对于语音辨认缺乏体验和比较的工具,为提升辨认准确率,依图团队
搜集了大量真实对话数据,以及专业类、生活类的细分语料库,基于此,依图提出了本人多维度、多场景的测试数据集,由此来对模型算法停止训练和测试。
据悉,
在基于全球最大中文开源数据库的AISHELL-2的测试中,依图短语音听写的字错率为3.71%,官方称抢先原业内抢先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上,依图平均字错率 6.39%,抢先讯飞 11%。加入电话、口音、语音节目、远场演讲等依图外部暂无法公开的测试集后(全部测试集共 50小时、60万汉字),依图平均字错率 8.27%,讯飞是9.30%,依图照旧抢先讯飞 11% 左右。
基于不同数据测试集上,依图语音辨认技术的准确率表现
其实,假如想完成真正意义上的语音交互,语音只是一部分,更重要的则是对语义的了解。
假如我们把语音技术比作人的嘴巴和耳朵,用于表达和获取;那么语义了解则是人的大脑,可以协助信息处理和解析。
在语义了解方面,依图异样在停止技术积累。
吕昊表示:虽然此次是从语音切入,但是团队不断是语音、语义两线并行。
2017年时,依图就曾将自然言语处理(NLP)技术用于AI+医疗处理方案,结合自建的临床中文知识图谱,对医学文本等多模态数据停止解析和信息提取。往年,依图的论文更当选NLP顶会EMNLP 2018,针对计算机言语学核心成绩之一的指代了解提出全新数据集PreCo并对外开放。
此前,在视觉范畴,依图曾经在安防、医疗、金融、批发等范畴有了产品化、商业化积累。对于能否会将语音技术迁移于这些范畴,吕昊回应:
这一阶段依旧以技术积累为主,依图在开放平台上提供了自有的API和模型算法,一方面可以经由市场验证算法质量,另一方面可以由此接近不同行业和场景。
据官方信息,依图与微软结合发布的语音开放平台基于Azure Cloud,将依图的语音辨认技术才能开放给广泛第三方运用开发者运用。依图和华为结合发布的“智能语音结合处理方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心侧的Atlas 300AI加速卡,构成软硬一体化处理方案。
在将来,依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说:希望为第三方运用开发者在语音范畴提供多一个语音技术选择。
笔者以为:结合自有的CV技术积累,依图或答应在多模态情感辨认和计算范畴发力,交融视觉、语音等多重数据,全方位提升机器的感知才能。在商业化层面,虽然当下的依图语音技术开放平台依旧以技术积累为重心,但依托CV积累的的B端用户,为企业级客户提供语音处理方案只是工夫早晚成绩。
————
我是郑铟,36氪超人学院创始学员,关注AI、AR/VR、物联网、边缘计算、半导体,项目交流请加微信zhengbaobao097825,注明公司、职位、姓名。
超人学院置信早期生态推进社会变革,使命是为早期生态培育首领人才,概况请戳36氪想要为进入创投圈的年轻人做一所「超人学院」,你来不来
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
4
chengxiao2
2020-6-5 19:21:53
显示全部楼层
一点毛病没有,顶你
回复
使用道具
举报
明君s
2020-6-6 21:21:45
显示全部楼层
回复
使用道具
举报
追求梦想568
2020-6-8 08:30:48
显示全部楼层
不错 支持一个了
回复
使用道具
举报
8090ANDY
2020-6-8 08:30:47
来自手机
显示全部楼层
大神,请收下我的膝盖
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
河鞋社会7
金牌会员
0
关注
0
粉丝
93
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们