找回密码
 立即注册
搜索

语音辨认技术25年:它的过去、如今和将来

本文的观点都是个人的反思和观察,其中一些能够看起来有点固执己见或错误的,如有异议,欢迎加入回复。
1994 年,我还是剑桥大学的研讨生,我的教师 Steve Young 和 Tony Robinson 开发出了当时世界上最好的语音辨认系统。在最后的几天,我看到了一件从早期版本的“DragonDictate”(早期的语音辨认系统,说话者在说话时需求在单词间停顿)身上永远也猜不到的事情。他们攻克了一个难题,一台配置普通的计算机就可以将延续的自然语音转换成文本,准确率约为 95%。也就是说,除了训练有素的专业人员之外,这项技术曾经好过一切人。
为什么语音辨认直到最近几年才被广泛运用于日常生活中呢?这项技术有很多隐藏的工业运用,但作为日常的实时用户接口(例如与电脑对话),其采用速度慢得令人难以置信。90 年代的一项逆向图灵测试证明了其中的一个缘由。志愿者们以为他们是在和一台电脑对话,但实践上是由一个人在“帘子后面”输入答案。经过观察和随后的采访表明,在那个时分,人们不喜欢语音辨认。
成绩出在哪里?
我敢一定,在某种程度上,这只是由于人们对它不熟习,所以有代际影响。我的孩子比我更常常和电脑对话,但是,将语音作为次要的用户接口的确存在严重的成绩:
    隐私:你希望别人听到你的搜索词和信息吗;技术不成熟:它还没有完全成熟——你走进一家拥堵的咖啡店,然后说“嘿,Siri……”试试看;机遇:你无法选择最好的机遇。
但是,在我分开大学并进入社会工作后,我从语音辨认的工作中看到了一些东西,而那些照旧只是在演示和讨论语音辨认并只将它运用于听写的人并没无看法到这些。
语音辨认不只是用来听写的

我开启了我的职业生涯——开发可扩展的数字媒体产品。除此之外,我还指导了 BBC 旧事在线的开发。然后,在 2000 年,我决议运用我的语音技术来处理媒体行业的成绩。同时我也尊重我的预见——人们照旧不喜欢和电脑对话。
在一家大型软件公司的资助下,我开发了一些产品,可以用语音辨认来录制语音。这个非常简单,由于同一集团下的另一家公司 SoftSound 是我的教师 Tony Robinson 创立的。
我对 Tony 的课程特别感兴味,并怅然接受与他合作开发产品。他与世界上最好的系统展开竞争,由于运用了神经网络,所以节省了内存和处理才能。从这个意义上说,我们超前别人几十年,他们中的大多数人在 2010 年代中期才转向神经网络。
我的团队采用了 SoftSound 的语音辨认算法,并将其与视频、文本和图像辨认结合在一同,为电视、电影和广播归档创建搜索引擎。我们做了各种各样很酷的东西,比如编辑软件,经过剪切和粘贴脚本就可以编辑视频。我们太过超前了,但还是博得了一些奖项,并得到了一些正面的媒体报道。
人们容易畏缩

看着人们运用我们的语音搜索引擎对我们来说是一种启示。它告诉我们,人们喜欢发现错误,并以此为理由回绝有用的创新,这与苏格兰人运用早期版本的 Siri 相似。
我们处理的电视归档里掺杂了各种背景噪音和音乐,辨认准确率从实验室的 95%下降到大约 65%至 70%。风趣的是,搜索引擎照旧可以找到婚配的剪辑。
成绩是,假如我们在结果列表里显示文本,虽然这些文本包含了他们的搜索词,但他们的眼睛也会被吸引到错误(几乎每行都有一两个错误)上去。不过,这项技术还是见效了,而且没过多久就想出了一个处理方案:我们不显示全文,而是每个片段显示一张静态图像和婚配的单词列表。
嘲笑不见了,魔法出现了。
对我来说,与那些贸易展会上的语音听写产品相比,这是一种很好的技术运用。它真的很有用,而且它不依赖于过度改变人类的行为。它扩展了人类的技能(经过输入关键字停止搜索),并将其运用到更多的东西上:视频和网页。我们演示了在数百小时的视频中搜索一个关键词,然后反复点击“下一个”按钮,看到视频一个接一个地跳转,不同视频里的人说着异样的关键词。
如今要赞一下 Nuance 和 DragonDictate:20 世纪 90 年代末,他们开发出了 Dragon NaturallySpeaking,不再需求用户在单词之间做出停顿。很快,他们就和我们一样末尾出售他们的技术,作为被集成到运用程序的工具包。
而且,虽然我对将语音辨认运用于听写不感兴味,但还是有各种各样的人将语音辨认作为听写的手腕——对专业人士来说,听写曾经成为一种规范,还有各种各样有键盘运用妨碍的人。

明年的这个时分,我们将成为百万富翁。
从 20 世纪 90 年代中期末尾,无论是在 SoftSound、Entropic 还是 Nuance,我们都曾年复一年地开玩笑说:“明年将是语音辨认的大年”。不知怎样的,它终于悄然降临到我们身上。
Siri 和 Alexa 之流

我在构建真实世界运用程序时学到的阅历与我在过去几年看到的行为具有一定的相关性。很多人在可以腾出手指打字的状况下普通不喜欢用 Siri。但是,就像我们成功地将搜索扩展到新媒体范畴一样,Siri 和它的伙伴们也成功地将搜索扩展到新的范畴:开车、做饭、给孩子洗澡,等等:
"Google……加油站"
“Siri,2.4 公斤的鸡要烤多长工夫?”
“Alexa,播放 Audible 上的《咕噜牛》”
话虽如此,Siri 问世曾经整整 10 年了,但要让它切换地图途径,或者当 Audible 末尾为你的孩子朗诵《五十度灰》时疾速切换节目照旧不是很容易。
音频反馈无法像图形用户界面那样给用户带来异样的确定性。我们只需看一眼就能确认能否输入了正确的卡号,但当你听到“我听到的是 4659 1234 1234 1234。对吗?假如确认,请说是或按数字 1”这句冷冰冰的机器语音时,你也不用太按捺不住。
到 2016 年,与错误以及带有苏格兰口音的 YouTube 视频相关的搞笑旧事报道(宣称这是一种具有种族主义颜色的技术)曾经少了很多。假如微软的 Office 软件只能给 90%的人用,那一定会惹起轩然大波。这能否意味着在赋能商业才能方面,语音辨认只是一个新颖事物,而不是真正的产品?
但是,神经网络的确起到了解救作用,尤其是对于这类成绩。理想证明,拥有足够多训练数据比了解口音之间的语音差异更为重要——神经网络会计算出它们之前的差异。
就在五年前,我们还需求训练系统来辨认不同的地方口音,但如今,Siri 基于苏格兰人阅读已知文本的数据来训练神经网络(也就是教会神经网络一个单词的各种发音方式),从而可以很好地处理苏格兰口音。
那么,语音会取代键盘和屏幕吗?这是一个错误的成绩。
计算机让我们可以同时完成多项义务,有时分我以为,语音作为一种接口,即便是用于人与人之间的交流,有时也会妨碍我们:我可以同时与多人停止文字聊天,但不能同时接听两个语音电话。基于文字和屏幕的互动的确有一些优势,在这方面,语音就逊色多了。
但是,语音技术要发挥其独特的潜力,还有很长的路要走。这对行业来说是个好音讯,由于越来越多的初创公司获得资金去处理大公司不愿处理的理想成绩。
技术必须先进到可以像人类一样擅长倾听和说话,甚至变得比我们更好。下面的一些例子来自我和其他一些人最近在做的项目。


分开耳机,我们的语音就不是我想象的那样呈线性的。当我接近一个说话人时,我能够会悄然对另外一个人交头接耳,而不会被其别人听到。在晚宴上,我能够会同时参与多个对话,由于在理想世界的三维空间里,我们很容易就可以知道谁说了什么,并针对特定的听众控制语音的音量和方向。
用于分离不同说话人的语音的技术正在一日千里地发展。这是经过更深化地分析语音以及将音频数据与其他来源的数据相结合来完成的,比如运用多个麦克风来测量相对音量和方向,或者混合来自摄像机的嘴唇动作和面部表情。
2016 年,谷歌提出了一种新的语音合成方法,即便用 WaveNet 神经网络(经过训练几乎可以生成恣意一种声响),然后用真实的人类语音来训练它。一旦经过训练,再用合成语音喂给它,它生成的声响听起来就像是人类发出的。
如今,最新的发展被广为分享,整个行业从谷歌、英伟达、微软和全球的大学研讨者社区获得最新的想法,在他们的支持下对它们停止扩展,并将它们运用到新的环境中,并加入他们本人专业范畴的专业知识。
我花了很多工夫研讨用于分析口音、发音错误和语音妨碍的系统。有些人说的话很难了解,由于他们有很奇特的口音或者刚末尾学习新言语。我们可以经过实时反馈来纠正他们的发音,但或许我们不需求为此感到烦恼:实时纠正口音和错误都正在成为理想。
语音辨认解救了人类

语音的差异不只是由于口音,也无心情和身体状况方面的要素。假如出现了难以了解的状况,不只要改进辨认才能,还要知道是哪里出了成绩,比如在接到紧急呼叫时,说话人能够受中风、镇静剂、酗酒、脑震荡的影响,或者说话人是个孩子,或者说话人说的是某一种特定的言语。
最后,经过监测语音的纤细变化,可以在早期辨认出某些严重的慢性神经系统疾病。不用去医院,甚至不用接触那些患有疾病的人,就可以做出初步判别。我们不断对着手机和电脑说话,所以只需求选择参与,并允许声响被分析,不会由于被录音或被别人听到而影响了隐私,这样就可以了。
有了正确的训练数据,也许异样的技术可以被训练用来辨认你的咳嗽实践上是一种新型持续性干咳。
原文链接:https://matthewkaras.medium.com/25-years-in-speech-technology-d5f9dfd98429
延伸阅读:

Recorder.js+百度语音辨认全栈方案技术细节-InfoQ

关注我并分享此篇文章,私信我“支付材料”,即可收费获得InfoQ价值4999元迷你书,点击文末「了解更多」,即可移步InfoQ官网,获取最新资讯~
回复

使用道具 举报

大神点评3

我也来顶一下..
回复

使用道具 举报

分梨各一半 2020-12-1 10:23:46 显示全部楼层
好,很好,非常好!
回复

使用道具 举报

鄙视楼下的顶帖没我快,哈哈
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies