找回密码
 立即注册
搜索

36氪首发|将中文语音辨认率提升至96.29%, 依图科技跨范畴推出语音开放平台

计算机视觉(CV)是AI范畴一大吸金赛道,也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然言语处理(NLP)行业。

12月11日,依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台,并和华为发布了“智能语音结合处理方案”。

其实早在2016年,当计算机视觉公司刚末尾吸引投资人留意时,语音辨认就末尾规模化场景落地。现如今,百度、腾讯、京东、小米纷纷发布智能音箱,各种手机搭载语音交互,智能翻译工具、智能客服等语音类产品层出不穷。

那么,相比同类产品,依图语音技术的比较优势和市场空间会在哪里?在将来产品化落地上,依图会有怎样的规划?围绕这些成绩,36氪独家专访了依图科技首席创新官,前Google Research Scientist吕昊博士。



依图科技首席创新官吕昊博士

的确,这个工夫点进入语音行业应战重重,一则先发优势不再,二则市场拥堵,科大讯飞、BAT大厂纷纷入局,从技术上升到平台生态,市场空间看似余地不多。

对此,吕昊表示:依图团队对国内现有的语音辨认技术都做了调研,发现在不少场景下,语音辨认效果并不理想,例如通话过程中的声响转写准确率低、远间隔的声响采集辨认效果差、语料数据积累不足等。因此,依图会从这些可优化空间动手,对模型算法停止打磨,提升辨认率,降低字错率。

在语音辨认范畴,15%的字错率是一条红线,超过则基本不具有可读性,而低于3%则是可以被以为具有类人的语音辨认才能。但是,在实践说话过程中,人的语速、语气、口音、语态等都会影响辨认准确度。此外,不同于英文,中文复杂的言语元素,以及同音不赞同等成绩为语音辨认带来了更大的应战。那么依图如何应对呢?

吕昊告诉36氪:当前业内缺乏系统性的标准测试和测试集,对于语音辨认缺乏体验和比较的工具,为提升辨认准确率,依图团队搜集了大量真实对话数据,以及专业类、生活类的细分语料库,基于此,依图提出了本人多维度、多场景的测试数据集,由此来对模型算法停止训练和测试。

据悉,在基于全球最大中文开源数据库的AISHELL-2的测试中,依图短语音听写的字错率为3.71%,官方称抢先原业内抢先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上,依图平均字错率 6.39%,抢先讯飞 11%。加入电话、口音、语音节目、远场演讲等依图外部暂无法公开的测试集后(全部测试集共 50小时、60万汉字),依图平均字错率 8.27%,讯飞是9.30%,依图照旧抢先讯飞 11% 左右。



基于不同数据测试集上,依图语音辨认技术的准确率表现

其实,假如想完成真正意义上的语音交互,语音只是一部分,更重要的则是对语义的了解。假如我们把语音技术比作人的嘴巴和耳朵,用于表达和获取;那么语义了解则是人的大脑,可以协助信息处理和解析。在语义了解方面,依图异样在停止技术积累。

吕昊表示:虽然此次是从语音切入,但是团队不断是语音、语义两线并行。2017年时,依图就曾将自然言语处理(NLP)技术用于AI+医疗处理方案,结合自建的临床中文知识图谱,对医学文本等多模态数据停止解析和信息提取。往年,依图的论文更当选NLP顶会EMNLP 2018,针对计算机言语学核心成绩之一的指代了解提出全新数据集PreCo并对外开放。

此前,在视觉范畴,依图曾经在安防、医疗、金融、批发等范畴有了产品化、商业化积累。对于能否会将语音技术迁移于这些范畴,吕昊回应:这一阶段依旧以技术积累为主,依图在开放平台上提供了自有的API和模型算法,一方面可以经由市场验证算法质量,另一方面可以由此接近不同行业和场景。

据官方信息,依图与微软结合发布的语音开放平台基于Azure Cloud,将依图的语音辨认技术才能开放给广泛第三方运用开发者运用。依图和华为结合发布的“智能语音结合处理方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心侧的Atlas 300AI加速卡,构成软硬一体化处理方案。

在将来,依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说:希望为第三方运用开发者在语音范畴提供多一个语音技术选择。

笔者以为:结合自有的CV技术积累,依图或答应在多模态情感辨认和计算范畴发力,交融视觉、语音等多重数据,全方位提升机器的感知才能。在商业化层面,虽然当下的依图语音技术开放平台依旧以技术积累为重心,但依托CV积累的的B端用户,为企业级客户提供语音处理方案只是工夫早晚成绩。

————

我是郑铟,36氪超人学院创始学员,关注AI、AR/VR、物联网、边缘计算、半导体,项目交流请加微信zhengbaobao097825,注明公司、职位、姓名。

超人学院置信早期生态推进社会变革,使命是为早期生态培育首领人才,概况请戳36氪想要为进入创投圈的年轻人做一所「超人学院」,你来不来

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

chengxiao2 2020-6-5 19:21:53 显示全部楼层
一点毛病没有,顶你
回复

使用道具 举报

明君s 2020-6-6 21:21:45 显示全部楼层
回复

使用道具 举报

不错 支持一个了
回复

使用道具 举报

8090ANDY 2020-6-8 08:30:47 来自手机 显示全部楼层
大神,请收下我的膝盖
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies