找回密码
 立即注册
搜索

你也许还没无看法到,语音辨认曾经让一切人掌握了魔法奥义

机器之心编译

参与:李泽南、蒋思源


英国科幻小说作家Arthur C. Clarke曾经指出,任何一种足够先进的技术,它和魔法之间的界限几乎是无法区分的。疾速发展的语音辨认技术也验证了他的观点,由于运用这种语音辨认技术就像施放一个咒语:只需对着空气说几句话,然后身边的设备就会完成你的愿望。

亚马逊Echo,一个用语音控制的圆柱型计算机,当你把它放在桌面上,并呼叫Alexa时它就会遭到呼唤。然后Alexa就可以播放你指定的音乐曲目和收音机电台、说笑话、回答一些日常的成绩甚至控制其他智能家电。在刚刚过去的圣诞节前,它曾经进驻了全美4%的家庭。语音助手也进入了一切人的手机中,苹果Siri如今每周都要处理20亿条语音指令,而美国20%的安卓端谷歌搜索是经过语音辨认发出的。听写电子邮件和短信的服务如今曾经变得非常牢靠了,当可以说话交流时,为什么要闷头打字呢?

这是一个宏大的提高。虽然语音辨认看起来似乎很简单,但要在人类与机器之间提供自然的交流,把语音转换为计算机可以了解的指令需求大量计算。从Windows的简单图形界面,再到触摸屏,人们不断在寻觅愈加直接的交互方式,希望早日甩掉键盘和鼠标。人们希望可以直接与计算机交谈,完全丢弃“用户界面”的笼统化存在。就像手机比连着电线的电话更好,汽车比需求马的车架更快一样,没有屏幕和键盘的计算机拥有着更大的适用潜力,它也许会比人类目前拥有的设备愈加弱小,而且无所不在。

声响不会完全取代其他方式的输入和输入。有些时分保留传统交互方式的机器会有一些优势(亚马逊宣称他们正在开发带有屏幕的Echo)。但语音控制注定会给人类带来更大的方便,想象一下,你的洗衣机可以告诉语音助理它还有多久完成工作,语音助理发送这条信息到呼叫中心,正在外出的你收到了这条信息,这会是一种高度自动化的图景。当然,为了发挥语音辨认的全部潜力,科研人员们不只在寻求技术打破,同时还需处理在便利与隐私之间权衡的棘手课题。

Alexa,你可知道深度学习?

计算机听写系统曾经存在多年。但长久以来它们不断以不牢靠著称,一些系统需求长工夫的训练才可以分辨出特定用户的声响。新一代计算机系统可以不经训练准确地辨认任何人的语音——它的力气来自于深度学习,一种人工智能范畴下的先进技术。运用了深度学习的系统经过数百万条数据的训练,通常这些数据都来自于网络。经过深度学习,计算机如今曾经可以准确辨认人们发出的语音,其准确程度甚至超过人类。基于计算机的自动转译系统正在疾速发展,它们文本语音转化的结果曾经脱离了机翻程度。简而言之,计算机在处理各种方式的自然言语义务时曾经变得高速且波动。

虽然深度学习带来的打破曾经可以让计算机准确辨认人类说话的内容,但它们照旧无法了解言语的含义。这对于工程师们来说照旧是一个应战,假如语音辨认技术可以继续发展,那么这个困难必须被克制。计算机必须能充分了解人类日常对话中的上下文联络,以便与主人展开关于某件事的持续性对话,而不是像如今这样只能回答简单的、互相有关联的语音指令(“Hey, Siri, 订一个闹钟”)。

各类研讨机构和大大小小的公司都在试图攻克这一难关,希望构建可以与人长工夫正常对话的“机器人”,它不只能检索信息,还能提供贷款建议和协助安排游览计划等。(亚马逊发出了100万美元的悬赏,奖励最先开发出能在20分钟工夫内停止延续有效交流的聊天机器人的团队)

用施法代替拼写

消费者和监管机构在语音技术发展的道路上也扮演着本人的角色。即便在当前,还处于原生方式的语音辨认系统也在承受着质疑声:语音驱动的系统在个性化设置之后才能发挥最大作用,但在个性化的过程中,机器必然会搜集用户的大量数据,例如工夫表,电子邮件和一些更为敏感的信息。这一切导致了人们产生了侵犯隐私权的担忧。

为了完成更多功能,很多语音驱动系统都在无时无刻地监听着周遭环境,等待被唤醒的那一刻。一些人正在抱怨这些衔接着因特网的麦克风正在监听着他们的一切房间和电话。不过并不是一切的数据都会被传到云端,这些设备都有一个启动机制(“Alexa”,“OK, Google”,“Hey Cortana”或者“Hey Siri”),但是思索到语音信息的存储,我们还不清楚实践的状况能否真的是这样。

阿肯色州的警察最近正在调查一同谋杀案,案发现场有一台开机的亚马逊Echo,警方要求亚马逊提供案发当机遇器搜集到的语音信息,但这个央求遭到科技公司的回绝。亚马逊在隐私权倡导人士的支援下争辩道:此类央求的法律地位尚不明白。这种状况和2016年苹果公司遭遇FBI施压,其被要求解锁犯罪嫌疑人iPhone的那个案件如出一辙。这两个案件都是在法律地位尚不明白的状况下,个人隐私和公众安全之间的碰撞。

即便这些成绩照旧存在,消费者们还是会逐渐倒向语音辨认系统,由于在很多状况下,语音比其他交互方式都要便捷。而且,它也可以在一些特定状况发挥作用(驾驶、工作或者出街环境下),它可以把计算力扩展到屏幕和键盘无法触及的范畴。语音辨认也能够对人类产生另一个层次的影响,不只仅是计算,而且关系到言语本身。计算机同传翻译能够会要求说话者运用非常规的言语;而在一个机器可以正常交流的世界里,减少对话数量能够意味着生活。迄今为止,触摸屏的适用化是人机交互方式最近的一次飞跃,我们都很等待语音辨以为我们带来下一次提高。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

zomvi 2019-12-8 13:55:08 显示全部楼层
求沙发
回复

使用道具 举报

元芳你怎么看?
回复

使用道具 举报

日出印象 2019-12-10 11:17:34 显示全部楼层
我反手就是一个么么哒,不谢
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies