语音识别技术

zhaobai · 2022-6-14 14:21:42

语音识别技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人有不同点，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用。

技术的落差

语音识别技术获得突破的主要原因在于半导体技术、软件技术和存储技术突飞猛进的发展。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。

但是在实际应用中，实验室中"成功"的语音识别系统在鲁棒性、灵活性和自适应能力上还远远不能满足实际的需要，技术上也显得力不从心。技术的不成熟，加之市场的接受情况，语音识别市场确实无法用上"火爆"这个形容词，甚至无法在市场上找到几个语音识别方面的成熟应用。

技术的难点

语音识别系统的分类有三种依据：词汇量大小，对说话人说话方式的要求（分为孤立词语音识别和连续语音识别）和对说话人的依赖程度（分为特定人和非特定人语音识别系统）。

语音识别技术的发展历史就是从简单到复杂的过程，最简单的小词汇量、孤立词、特定人语音识别技术在20世纪70年代就已经非常成熟，并且新的技术正在使识别率不断上升。

虽然在实验室拥有如此高的识别率，但是在语音识别技术从各个不同的突破口进行应用和产业化的过程中，新问题也逐渐凸显：

首先，方言或口音会降低语音识别率，而对于拥有八大方言区的中文来说，应用的难度会更大。

其次是背景噪音。人多的公共场所巨大的噪音对语音识别影响自不用说，就算在实验室环境下，敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原始语音的频谱，或者把原始语音部分或全部掩盖掉，造成识别率下降。解决把原始语音从背景噪音中分离出来的问题，这将会使识别系统具有很强的适应性。

最后就是"口语"的问题。它既涉及到自然语言理解，又与声学有关。语音识别技术的最终目的是要让用户在"人机对话"的时候，能够像进行"人人对话"一样自然。而一旦用户以跟人交谈的方式来进行语音输入时，口语的语法不规范和语序不正常的特点，也会给语义的分析和理解带来困难。

发展趋势

多年的研究使国内中文语音识别的核心技术与国际的差别不大，随着中文语音识别技术的应用开始大量涌现，产业化进程从此拉开序幕。语音比起其它的交互方式有更多的优势，如果在技术上取得突破并形成产品，或者把语音识别嵌入到自己的强势产品中去，将会有更多的人接受语音识别技术，市场规模会更大。

发展前景

如果语音识别的发展高峰形成了，它的主要特点将是语音识别技术在不同应用领域的突破，并逐渐大面积普及，高峰之后的持续发展是各个厂商都必须考虑的问题。

目前语音技术处理的对象是连续语音，并不追求对整句的识别和理解，而是采用"关键词检出"技术，在输入的连续语音中捕捉感兴趣的部分对其进行匹配，从而达到识别的目的。随着语音识别市场快速发展，技术研发与应用阶段性的交替进行，避免了市场对技术的过高期待，压制了产品泡沫的产生。

goodfs · 2022-6-14 14:22:10

转发了

zxl516239 · 2022-6-17 13:41:42

赞一个，赞一个

		自动登录	找回密码
密码			立即注册

语音识别技术

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们