请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

处暑 | 语音识别技术的前世今生

处暑 | 语音识别技术的前世今生-1.jpg

离离暑云散,袅袅凉风起。
《早秋曲江感怀》(唐) 白居易



在这个暑意渐消的时节,我们来聊聊语音识别技术的前世今生。
人类很早就开始,尝试制造能听懂自己说话的机器,语音识别技术的出现可以追溯到上世纪50年代。
1950s~1960s

1952年,大名鼎鼎的贝尔实验室研发出了第一台能识别人类语音的机器,名为 Audrey。它能识别0~9的单个数字,准确率达到了90%以上。但是它只能准确识别发明者的语音,换一个说话人,准确率就会大打折扣。Audrey 虽然有着各种不足,但它还是标志着人类使用计算机识别语音的时代的开始。
之后的十余年里,语音识别技术随着计算机技术一起快速发展。1961年,IBM 发明了“ShoeBox”系统,可以识别16个英文单词。来自其他国家的科学家,也研制出了类似的语音识别设备,识别的准确度和词汇量不断提高。
1970s~1980s

有了前人的积累,到了70和80年代,语音识别的基本概念也被逐步完善:语音识别任务就是给定一段包含自然语言发音的声学信号,寻找最可能的词序列。从此,现代语音识别的时代开始了。
这个时期,监督学习成为了语音识别的主流方法。研究者们不再依赖语言学知识,而是设计一套建模算法,然后使用一些语音和抄本对应的数据,让算法自己进行学习。
在这个时代,技术的发展可谓是百花齐放,多种技术被用于语音识别的研究,包括隐马尔可夫链 HMM、高斯混合模型 GMM、最大似然估计、n-gram 语言模型、Beam Search 等。
后来主导语音识别技术的 GMM-HMM 架构(隐马尔可夫-高斯混合模型)也在这个时代被提出来。机器的语音识别能力不断提高,不断有新的成就刷新人们的认知。

  • 1984年, IBM 研发出了第一款能实时听写的系统。
  • 1987年,李开复开发了 Sphinx-I 系统,这是第一套实现了非特定说话人的语音识别的系统,具有划时代的意义。
这个时期语音识别技术取得的进步,让它逐渐具备在一些场景中发挥作用的能力。
1990s

进入90年代后,随着个人电脑 PC 的普及和互联网的发展,语音识别逐渐走出神秘的研究所,出现在了普通人的视野里。语音识别技术更是成为了各种科幻电影的常客,也有 Dragon Dictate 等软件成功的进行了商业化。
2000s

任何历史和技术的发展都是曲折的,语音识别技术在经历了近20年的快速发展之后,在2000年代陷入了停滞。
在2000年前,每年最先进的语音识别在 SwitchBoard 这个最通用的测试任务上的错误率变一直保持下降,代表着语音识别技术不断发展的步伐。到 2001 年,语音识别技术的准确率已接近 80%。
然而在这之后,无论研究者们尝试什么方法,都很难让错误率继续降低。
2010s~现在

2010年后,基于深度学习的技术成为了语音识别研究的绝对主流。
在过去,研究者们也曾将神经网络用于语音识别系统,但是最多能取得和传统架构的方法相近的效果,并没有明显的优势。直到2010年前后,随着计算能力的提升和互联网积累的数据越来越多,神经网络逐渐开始崭露头角。
2009年,图灵奖得主、AI 三巨头之一 Geoffrey Hinton 发表了语音识别领域引用量最高的文章(Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups),让深度学习在语音识别领域的应用吸引了学术界的目光。很快,深度学习的有效性和巨大的潜力让它成为了接下来几年语音识别领域的热点,相关论文逐年增多。短短几年间,相较传统 GMM-HMM 算法,基于深度学习的语音识别系统错误率下降了30%以上。
新的技术成果很快在工业界得到了应用。2012年初谷歌发布的语音搜索产品中使用了基于深度学习的语音识别技术,这也成为了深度学习第一次的大规模商业应用。此后几年,微软、苹果、百度等科技巨头都发布了基于深度学习的语音识别产品,包括我们熟知的 Siri、小娜、小度等等。从此,语音识别的产品得到了普及。
在进入深度学习时代后,语音识别的准确度极限不断被刷新。2016年,微软首席语音科学家黄学东带领的语音团队在 Switchboard 语音识别基准测试中,实现了对话语音识别词错率5.9%,首次达到与专业速记员持平而优于普通人的表现。这被认为是 AI 领域历史性的突破之一。
除了准确率在不断提升,各种现实场景的问题也被一一解决。比如多种语言的识别、文字纠错、口音方言、多人对话、嘈杂环境等。
未 来

展望未来,语音识别将成为人工智能时代的一个重要的基础技术,是人类与多智能体交互的入口。比如它与逐渐成熟自然语言处理算法结合,人工智能系统将不但能听懂你说的词是什么,还能理解你的意思,并且与你进行多轮的对话。



处暑 | 语音识别技术的前世今生-2.jpg

文字 | 刘奕良

图片 | 陈昱蓉
回复

使用道具 举报

大神点评3

顶起顶起顶起
回复

使用道具 举报

hang_無盡 2023-1-6 22:42:23 显示全部楼层
沙发???
回复

使用道具 举报

香槟酒色 2023-1-7 07:21:43 显示全部楼层
前排,哇咔咔
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册