找回密码
 立即注册
搜索

语音辨认即将进入规模化运用


财经天下周刊(ID:Economic-Weekly)文|严冬雪

来自商界的种种动向显示,语音辨认,这项把人类语音转换成文本的研讨,曾经成为人工智能范畴最接近运用的技术。

过去数月间,这种动口不动手的“黑科技”频繁出如今国外科技行会中。7月,奇点极客公园创新者峰会上,搜狗CEO王小川一边演讲,大屏幕上一边显示出内容,辨认结果令人冷艳;10月上旬,在杭州云栖大会上,4万人现场见证马云一边演讲,一边在大屏幕上秀出阿里机器人打出的字幕,还有700万人经过在线直播观看了这一幕,培育了语音辨认最大规模的一次亮相;10月下旬,锤子手机M1发布会上,科大讯飞的语音辨认技术疾速、精准地将罗永浩的讲话译成文字,几乎成为发布会主角。

一边演讲,一边在大屏幕上弹出语音辨认字幕,日趋成为潮流标配。这也意味着,这项技术正在步入成熟期。微软10月底发布的一份学术声明表示:语音辨认技术的精准性曾经媲美人类,在产业标准测试中,其语音辨认完成了词错率低至5.9%——与人类专业速记员的最好记录持平,这意味着其辨认才能曾经高于世界上绝大多数人,而与人类专业高手持平。

顶级语音专家、微软研讨院首席研讨员俞栋表示,在安静环境下,运用近间隔麦克风,语音辨认的正确率曾经跨过了运用门槛。

巨头的共同动作

来自巨头们的动作亦可印证这一趋向:从2010年末尾,苹果公司先后收买包括Siri在内的3家语音辨认公司;谷歌、亚马逊、Facebook也各自收买2~4家;微软则从自家战略层面发展Skype、Cortana和微软小冰;往年,英特尔宣布与语音辨认技术公司Sensory达成合作,在当前最新的芯片中集成整合该公司的语音辨认技术。

相比国外大公司在收买技术上花钱,国内公司则将各自语音辨认技术大胆接近运用。例如百度语音嵌入百度旗下其他App,搜狗语音运用于输入法,腾讯则让微信具有语音转文字功能。创业公司也纷纷应用语音技术,依托硬件作为流量分发入口,运用在智能家居、车载语音助手等产品上。

理想上,现阶段大部分人早已享用语音辨认科技,比如客服服务。作为全球最大的电商,阿里巴巴的客服需求不断伴随业务的激增而扩展,这导致人力成本高企。应对这一状况的传统方式是客服外包,但其服务不牢靠、不波动的缺陷难以克制。最末尾,阿里采用抽检式的质检,从每100通电话里抽取1通,由人工逐句检验录音能否合规。

担任人很快发现,1%的抽检率不足以覆盖全部成绩,由于每个人犯错的方式存在很大差异。于是,阿里云的人工智能机器人ET介入该项服务,将语音转化为文字,再应用关键词搜索等完成质检,一旦触发违规,会自动进入处罚流程。假如客服以为ET辨认有误,本人被冤枉了,可以点击“申诉”——人工质检员只在这一步介入。如此,在同等人力条件下,质检率从1%提升到了100%。

阿里云智能语音高级专家陈一宁告诉《财经天下》周刊,除了客服,语音辨认也运用在淘宝、支付宝、钉钉等移动端运用,甚至进入了杭州市西湖区人民法院的庭审现场。自往年6月起,该法院的书记员工作被ET替代。法官及诉讼参与各方人士的发言,都会在显示屏上即时显示。

陈一宁解释,让语音辨认参与庭审不只可以节省人力,其最大意义在于方便检索和后续分析。法官们在审案前,需求参考同类案件的处理,而ET自动将庭审内容转化为文字并归档,就能方便法官输入同类关键词,查看一切相关案件的记录。

电脑与人耳的优劣

微软称最新的语音辨认词错率与专业速记员持平,阿里也做了相似的测试。在往年年终的2016阿里云年会上,阿里ET与世界速记大赛亚军得主姜毅同时为现场演讲做速记。与姜毅的对决中,ET以0.67%的微弱优势取胜。

面对人类中的顶级选手,ET的取胜优势在于其波动性和并发计算才能。人类的体力有极限,在高强度压力下难以保持波动;此外,计算机的高并发才能使其可以在发现错误后,瞬间完成修正,速记员则只能在演讲者话语中缀的间歇见缝插针前往修正。

人类的另一个弱项是对短句的辨认。假如没有前后语境,忽然冒出一句语速又快、内容又短的句子,普通人很动听清。但计算机不怕语速快,并且能经过大数据学习沉淀下的阅历,去根据之前听过的相似语音,来计算出这句话最能够是什么。

但若论真正“听懂”的智慧,电脑尚未追逐上人类。比如在环境嘈杂、多人同时发音、中英夹杂等条件下,电脑便不及人类能迅速过滤无用信息,了解对方的意思。或者,讲述者说的是一个全新的、创新性的词语,此前没有人说过,机器自然没学习过,就很难辨认。

风趣的是,方言与口音并不在计算机惧怕的范畴范围内。以阿里客服为例,他们每天会接听来自全国乃至世界各地的电话,后台的ET被各种口音训练过,只需积累足够的训练量,可以无下限地成为N种方言专家,辨认标准普通话之外的口音。

离消费级仅一步之遥

与大部分被置之不理的前沿研讨不同,语音辨认技术曾经运用到实践产品中,例如科大讯飞曾经推出一系列手机运用,用于录音转化文字。微软也在其Xbox游戏平台、最新的Windows中部署语音辨认助手。

根据人工智能世界级专家、百度首席迷信家吴恩达的说法,当下语音辨认能够已达到平均95%的准确度,一旦提升到99%,就将发生质变:你从偶然运用语音,变到常常自但是然地运用。届时,人机交互方式将彻底改变,双手与键盘被解放,人们真的“动口不动手”。

理想上,来自亚马逊的一款产品曾经印证了这一趋向:Echo智能音箱被嵌入亚马逊的语音辨认技术Alexa,成为语音控制智能家居的入口。上市两年以来,Echo曾经学会了朗诵小说、用Uber叫车、叫匹萨外卖、配合户主玩语音游戏。由于当下的言语技术已能支撑不错的用户体验,Echo获得了市场认可。根据往年6月公开的新销售计划,亚马逊计划在2017年卖出第1000万台Echo。

一旦95%到99%一步跨越成功,可以预见的是,相似Echo的智能语音交互产品会遍地开花式获得成功。巨头们显然有相似的判别与思索,并在分歧加速步伐:例如,由于Siri表现蹩脚,曾经引发了苹果高管的关注,已在不久前从美国卡耐基梅隆大学挖来人工智能技术的教授担任组建团队,其使命之一便是提高Siri辨认语音率和回答成绩的“智商”。

陈一宁也向《财经天下》周刊泄漏,阿里云也会在明年春节前后推出消费级的语音辨认产品,届时,你只需将语音传送到阿里云,便可由其经过翻译,实时前往文字。

有意思的是,这一次,科研不再只是迷信家的事。你我作为人类的一员,异样参与其中,你每次拨打客服电话,都在给计算机学习人类言语提供了一次宝贵的学习机会。而为你服务的,除了客服年轻人,还有背后的一整支迷信家团队。

-End-

扫描下方二维码关注财经天下传媒大号

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评15

莫非搜狗也有鸟军团?
回复

使用道具 举报

xufan964 2019-2-17 12:52:38 显示全部楼层
语音输入有很多运用场景,前提是在各种环境中可以精准辨认,搜狗在辨认方面比其他同类软件要好
回复

使用道具 举报

大馋猫子_ 2019-2-17 12:54:11 显示全部楼层
我觉得搜狗的语音辨认还可以呀!连标点符号都可以很多准确
回复

使用道具 举报

wd吴东 2019-2-17 13:03:49 显示全部楼层
搜狗输入法也可以啊,其实嘛,手机输入法,语音方面都做得挺好的,只是搜狗没宣传而已
回复

使用道具 举报

千鹤 2019-2-17 13:08:11 显示全部楼层
搜狗手机输入法最好,可以手写可以语音
回复

使用道具 举报

婷中的鱼 2019-2-17 13:12:22 显示全部楼层
搜狗的确好用,特别是联想功能、语音输入,精准率非常高
回复

使用道具 举报

风尘浪子455 2019-2-17 13:23:53 显示全部楼层
搜狗的语音辨认系统真的很棒,超快超准!
回复

使用道具 举报

云雀ing 2019-2-17 13:33:52 显示全部楼层
搜狗我不断在用,很好啊,他语音输入准确率很高的,有离线语音包
回复

使用道具 举报

wei4832347 2019-2-17 13:40:53 显示全部楼层
请问请了多少水军?
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies