找回密码
 立即注册
搜索

语音辨认技术

语音辨认技术,其目的是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人辨认及说话人有不同点,后者尝试辨认或确认发出语音的说话人而非其中所包含的词汇内容。




语音辨认技术的运用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音辨认技术与其他自然言语处理技术如机器翻译及语音合成技术相结合,可以构建出愈加复杂的运用。




技术的落差

语音辨认技术获得打破的次要缘由在于半导体技术、软件技术和存储技术一日千里的发展。语音辨认技术有一个很好的评价机制,那就是辨认的准确率,而这项目的在20世纪90年代中后期实验室研讨中得到了不断的提高。




但是在实践运用中,实验室中"成功"的语音辨认系统在鲁棒性、灵敏性和自顺应才能上还远远不能满足实践的需求,技术上也显得力所能及。技术的不成熟,加之市场的接受状况,语音辨认市场的确无法用上"火爆"这个描画词,甚至无法在市场上找到几个语音辨认方面的成熟运用。




技术的难点

语音辨认系统的分类有三种根据:词汇量大小,对说话人说话方式的要求(分为孤立词语音辨认和延续语音辨认)和对说话人的依赖程度(分为特定人和非特定人语音辨认系统)。




语音辨认技术的发展历史就是从简单到复杂的过程,最简单的小词汇量、孤立词、特定人语音辨认技术在20世纪70年代就曾经非常成熟,并且新的技术正在使辨认率不断上升。




虽然在实验室拥有如此高的辨认率,但是在语音辨认技术从各个不同的打破口停止运用和产业化的过程中,新成绩也逐渐凸显:

首先,方言或口音会降低语音辨认率,而对于拥有八大方言区的中文来说,运用的难度会更大。




其次是背景噪音。人多的公共场所宏大的噪音对语音辨认影响自不用说,就算在实验室环境下,敲击键盘、移动麦克风都会成为背景噪音。它将毁坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,形成辨认率下降。处理把原始语音从背景噪音中分离出来的成绩,这将会使辨认系统具有很强的顺应性。




最后就是"口语"的成绩。它既触及到自然言语了解,又与声学有关。语音辨认技术的最终目的是要让用户在"人机对话"的时分,可以像停止"人人对话"一样自然。而一旦用户以跟人交谈的方式来停止语音输入时,口语的语法不规范和语序不正常的特点,也会给语义的分析和了解带来困难。




发展趋向

多年的研讨使国内中文语音辨认的核心技术与国际的差别不大,随着中文语音辨认技术的运用末尾大量涌现,产业化进程从此拉开序幕。语音比起其它的交互方式有更多的优势,假如在技术上获得打破并构成产品,或者把语音辨认嵌入到本人的强势产品中去,将会有更多的人接受语音辨认技术,市场规模会更大。




发展前景

假如语音辨认的发展高峰构成了,它的次要特点将是语音辨认技术在不同运用范畴的打破,并逐渐大面积普及,高峰之后的持续发展是各个厂商都必须思索的成绩。




目前语音技术处理的对象是延续语音,并不追求对整句的辨认和了解,而是采用"关键词检出"技术,在输入的延续语音中捕捉感兴味的部分对其停止婚配,从而达到辨认的目的。随着语音辨认市场疾速发展,技术研发与运用阶段性的交替停止,避免了市场对技术的过高等待,压制了产品泡沫的产生。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

红颜素手 2020-6-23 07:07:39 来自手机 显示全部楼层
呵呵,低调,低调!
回复

使用道具 举报

同桌的她 2020-6-24 07:32:02 显示全部楼层
这帖子写的不错
回复

使用道具 举报

rongduok 2020-6-25 09:54:16 显示全部楼层
大佬,这是大佬
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies