请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

AI赋新技能,科大讯飞语音辨认率再提升



其实人工智能的发展曾经很多年,我们此前在电影中也常常能看到人工智能的各种运用画面,他们的生活,像诗像神话一样,让我们羡慕不已。但是这几年人工智能产品呈迸发式增长。尤其是去年围棋人工智能AlphaGo三局全胜人类围棋第一人柯洁,再一次向世界展现出人工智能的弱小。而且去年罗永浩在锤子发布会上关于让讯飞输入法语音输入的展现也让大家印象深入。




在人工智能一天天浸透并改变我们生活的明天,科大讯飞在核心技术上持续投入大量研发精神,并将其研讨成果疾速落地。AI赋能讯飞输入法,为大众带来更丰富功能、更出色体验;另一方面,AI持续赋能方言保护,为世界留下多彩乡音。

语音辨认率从2016年的97%提升至98%




2016年10月锤子科技新品发布会上,罗永浩在现场用很快的语速随口说了一段内容,讯飞输入法瞬间"打"出文字,辨认结果一字不差。当时,据讯飞输入法方面称,这款在2010年推出的输入软件,集语音、手写、拼音等多种输入方式于一体,语音辨认准确率已超97%,按照微软方面的标准,97%曾经是世界前茅的准确率。




并且,科大讯飞讯飞输入法产品总监翟吉博在12日的媒体见面会现场宣布:其用户曾经打破6亿,准确率提升到98%,语音浸透率保持逐年上升态势。

AI技术再次提升,讯飞输入法一分钟辨认400字

早在讯飞输入法诞生之初,便确定以语音为核心,全球首家支持智能语音输入功能。近一年来,讯飞输入法在输入效率和智能化方面获得了长足的提高,不只做到一分钟辨认400字,还支持多语种实时语音翻译、超长语音输入、耳语输入、方言语音输入等功能。值得一提的是,科大讯飞在感知智能、认知智能以及两种智能深度结合等范畴均获得达到国际抢先的研讨成果,而这些AI黑科技正运用到讯飞输入法上,率先内行业内做到通用语音辨认率98%。




语音输入更精准的方法离不开数据和算法。讯飞输入法从人脑神经迷信动手对人类记忆停止仿生,完成大量无监督的数据去辅助有人工标注的数据。受图像范畴CNN运用的启示,科大讯飞独家研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音辨认框架,运用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,有效降低信息损失,非常出色地表达语音的长时相关性。同时,自创了图像辨认中效果最好的网络配置,每个卷积层运用3×3的小卷积核训练更深的CNN模型,输入单元直接与最终的辨认结果(比如音节或汉字),从而使辨认准确率分明提升。




此外,讯飞输入法以自然言语交互方式——语音修正来处理应前技术一筹莫展的 2% 不准确。也就是说,运用语音输入的过程中经过自然言语说出指令来修正、添增、删除文字等操作。由于中文拥有复杂的多样性,同音不同义的词非常丰富,这对机器而言存在了解难度。所以,讯飞输入法新增语音修正结果多同音词候选,在机器不能准确了解语义时,经过人工选择愈加高效。不只如此,基于Cache Base Fast Adapation技术,讯飞输入法独创的"智顺应"支持一次修正自动记忆修正结果,再次输入相反内容精准辨认。




受制于复杂的环境,像含糊不清的口音、噪声环境、多人对话场所等都给语音辨认形成影响,一旦辨认错误就能够改变整句话的意思。对于口音和方言辨认的难题,讯飞输入法提出方言语音输入方案来处理。依托科大讯飞对AI技术及言语深度研讨的积累,采用Multi-lingual多言语建模,经过多方言数据共享方式训练;辅以Global Phone全球音素集,从声学层面的相似性一致各方言的音素定义,对方言"语图谱"模型做进一步精进,从而有针对性地提升方言语种的辨认才能。目前讯飞输入法支持22种方言,其中粤语、四川话、东北话等辨认率均已超过90%。2017年讯飞输入法对外发起"方言保护计划",建立"中国方言库",用智能语音留存、发展承载传统文明积淀的方言,积累了海量方言数据,是讯飞输入法得天独厚的深度学习素材,方言辨认率日趋精准。本月底,讯飞输入法还将新增苏州话辨认,方言辨认语种将扩大至23种。

基于科大讯飞精简和优化的Hybrid-DFCNN全新语音辨认框架,6月底讯飞输入法将上线Hyper-CNN语音新引擎,随之通用语音辨认准确率将相对提升15%,此外有效优化中英混合语音输入、粤语等重点方言、标点判别准确率,提升语音输入的体验。




人工智能正从感知智能向认知智能跨越,科大讯飞人工智能运用愿景正在从"能听会说"到"能了解会思索"。在科大讯飞看来,手机端输入方式发生了宏大的变化,语音输入曾经达到了适用的门槛,语音交互的比重越来越大,加上对涟漪效应的了解,讯飞输入法曾经成为高粘性的工具类产品。媒体见面会现场,讯飞输入法市场品牌担任人李强军引见,讯飞输入法用户规模打破6亿,语音输入月覆盖率达50%,语音浸透率保持逐年上升态势。

新增面对面翻译和OCR拍照 开启智能输入时代




在我们日常办公中,普通从文件、图片中提取文字,需求手工录入大量文字,不只效率低下且能够出现错字。基于用户刚需,讯飞输入法新增了OCR拍照输入,相当于给输入法安装了一双"眼睛"。这个新功能的用心之处是不管书本、路牌、名片还是其他纸质图中的文字,都能轻松辨认并提取出来,方便用户停止编辑、归类、管理,省去大量录入的工夫。更令人惊喜的是,内置OCR不只能辨认各类印刷体,对于手写辨认准确率也高达90%以上,就算字体潦草也轻松辨认。 作为高效输入的一种补充,OCR拍照输入可以捕捉输入过程中多场景下的文字,满足用户多样的需求,助力讯飞输入法成为将来最智能化的输入法。

据悉,将来讯飞输入法将继续结合AI,不断提升语音辨认、语义了解、机器翻译、图像辨认、语音合成技术才能,赋予输入法更多想象空间。

从"让机器能听会说"到"让机器能了解会思索",科大讯飞的梦想不断晋级。放眼将来,科大讯飞将坚持人工智能核心技术的源头创新,并与广大合作伙伴一同携手推进人工智能技术走进千家万户,用人工智能建设美妙世界。我们也希望科大讯飞可以应用你人工智能的技术,为我们带来更多方面熟活的新技能。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

迷离苍穹 2018-12-15 21:48:43 显示全部楼层
鄙视楼下的顶帖没我快,哈哈
回复

使用道具 举报

几回悠世 2018-12-16 08:50:13 显示全部楼层
嘘,低调。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies