智客公社

标题: 语音识别技术前景广阔 [打印本页]

作者: Gemini_喬 时间: 2018-7-28 13:22
标题: 语音识别技术前景广阔
点击上方“高科技与产业化”可以订阅哦

[attach]6231[/attach]

语音识别技术是通过信号处理和模式识别技术的研究，让计算机能够“听懂”人类的语音。近年来，随着深度学习技术的快速发展，语音识别系统的准确率得到显著改善，在不少领域已达到或接近人类的水平。语音识别具备将非结构化的语音或视频数据转换为结构化文本的能力，其准确性和高效性有效推动了行业应用的进程，有望在多个领域大幅提升从业人员的工作效率。
[attach]6232[/attach]
语音识别技术的演进

从上世纪 50 年代贝尔实验室语音识别系统的雏形初现，到工业界以谷歌、微软、 IBM、科大讯飞为代表的公司推出应用级产品，语音识别在跌跌撞撞中已经走过了一个甲子的辉煌历程。尤其过去的十年是语音识别技术发展史上具有里程碑意义的十年，语音识别走出主流的 HMM-GMM框架，逐渐转向以前馈神经网络、循环神经网络和卷积神经网络为代表的深度学习框架，并取得了很好的实用效果。

首先，基于前馈神经网络的语音识别框架使用前馈神经网络替换混合高斯模型。在这个框架下，语音识别所有建模单元采用同一个模型来建模，这种分布式表达的模型可以更充分地使用训练数据、更方便地使用上下文相关特征，从而使语音识别的性能得到了革命性的改善。其次，基于循环神经网络的语音识别框架使用循环神经网络代替前馈神经网络。因为语音具有天然的上下文相关性，而循环神经网络可以有效地记忆历史和利用未来信息，这一技术框架进一步推动了语音识别技术的发展。最后，基于卷积神经网络的语音识别框架从另一方面代表了语音识别的发展方向，卷积神经网络采用局部感受野机制从而对语音信号中因说话人、信道、噪声干扰产生的影响具有更强的鲁棒性。卷积和循环神经网络从不同的侧面解决了语音识别中面临的难题，从而推动了语音识别技术的又一次重大进展。

[attach]6233[/attach]

语音识别按任务难度分为面向人机对话的语音听写和面向人人对话的语音转写。得益于上述深度学习技术的不断突破，语音听写技术已广泛在语音输入、语音搜索、语音助手等产品中得到应用并日臻成熟。但是，在语音识别的行业应用中，更多的是面向人人对话的场景，例如在会议、采访、授课等场景下，语音识别将面临说话风格、口音、录音质量等诸多方面的挑战。同时，由于人人对话语言的无组织性，即使在语音识别正确率非常高的情况下，语音识别文本的可阅读性仍然存在较大的问题，需要对口语化文本进行分句、分段及流利性做后处理工作，才具有可阅读性。

近年来，学术界和工业界针对上述人人对话场景的语音转写问题进行深入的研究。在录音质量方面，麦克风阵列技术可在目标人的方向上形成拾音波束，对目标语音进行增强并对背景噪声、人声干扰和回声进行抑制；同时，麦克风阵列与深度学习相结合的方式可以进一步实现降噪和解混响，使得远场、噪声情况下的语音转写也达到了实用门槛。在说话风格方面，为了打破针对口语与书面语建模的风格鸿沟，研究者通过在书面语基础上自动引入回读、倒装、语气词等口语“噪声”现象，从而自动生成海量口语语料，解决口语和书面语之间的不匹配问题。在后处理方面，研究者通过长短时记忆循环神经网络建模技术对口语化的文本进行分句、标点、分段以及流利性处理，从而进一步提高了语音识别结果的可阅读性。这些技术难题的研究进展，进一步提高了语音识别系统的鲁棒性、易用性，为语音识别技术的大规模行业应用提供了可能。

语音识别技术的行业应用

随着语音识别技术的快速发展，语音识别的产业化应用也在加速发展。按照需求场景的不同，语音识别的应用主要分为实时记录和音视频的内容管理等方面。

在实时记录方面，语音识别技术具有重要的作用。如会议记录场景，政府机构在召开大规模会议时一般需要对会议发言进行详细记录，目前一般采用雇用速录员的方式进行会议记录。全国大中型企业平均每年召开的会议超过 1000 次以上，总时长超过 2 千万小时，人工进行会议记录成本高，且对会议记录人员的要求很高。在公检法领域，每年召开的庭审和审讯在内的各项会议总时长约 1.9 千万多小时，为保证司法过程的可回溯性，该领域对记录的完整性和准确性有着更高的要求。

通过软硬件结合的会议记录系统，可实现在会议过程中将发言人的语音转换为文字，一方面，可帮助参会人员更快速地理解会议内容；另一方面，采用人机耦合的方式，即会议记录人员或法院工作人员在机器自动语音识别结果的基础上，进行内容的编辑、修改和提练，这种方式既可缓解工作人员的工作压力，提高工作人员的工作效率，也进一步保证了记录的完整性和可回溯性。

在音视频的内容管理方面，如媒体行业，每年有数以百万计的电视节目、采访录像产生，编辑字幕或生成采访稿件需要耗费大量的人力物力。在教育行业，存在海量优秀的教师微课资源，但缺乏好的资源管理方法。在客服行业，客服代表和用户之间的对话数据背后蕴藏着重要的信息，但缺乏有效的挖掘方法。

上述领域共同面临的问题是，音视频文件是非结构化的信息源，只有将其转换成结构化的文本才能更好地进行内容管理，因而语音识别在上述行业也具有重要的作用。例如，通过提供开放的语音识别接口，用户上传音视频文件，即可快速得到该文件相关的文本内容。行业用户根据音视频对应的文本，可以高效地进行内容管理、信息检索、数据挖掘等，从而提高音视频文件的使用价值。

发展与展望

回顾语音识别的技术发展历史，我们发现，技术的突破是艰难而缓慢的，在遵循技术的螺旋式发展规律的基础上，语音识别从业者也可以找到很多应用的突破点。尽管如此，语音识别的技术和应用方面仍有巨大的发展空间。

在技术方面，首先，语音识别的整体框架仍有较大的调整空间，目前的方案太多依赖于有监督数据，与人脑的工作机制相差甚远。所以，很多学者在致力于无监督方法的研究，尝试跳出模式识别的传统框架，相信这方面的研究未来会使语音识别获得突破性进展。其次，如何让语音识别能够适应更加恶劣的环境，即便在高噪声、强口音、超远场等环境下仍能取得良好识别效果也是语音识别实用化的重要发展方向。最后，针对语种混合、人名、地名、专业术语等个性化问题的研究进展也将会影响到语音识别系统的最终体验。

在应用方面，语音转写的行业应用已经有越来越多的案例，但仍需要从业者、开发者在不同的垂直应用领域精耕细作，解决不同应用中的个性化问题，真正解决用户的刚性需求。例如，在会议记录场景，虽然语音转成文字已经可以解决一部分问题，但在国际会议场景，仍需要结合翻译技术，将文字从一种语言转换成另一种语言，从而打破不同语言沟通的壁垒，提高国际交流的效率。在音视频内容管理方面，仍需要针对不同的行业、不同的录音信道进行深度定制，进一步提高语音识别系统的准确性和易用性。而在个人应用方面，我们一生中说过的话比我们写过的字要多得多，试想一下，如果我们能将说过的所有话变成文字，记录人生中的每一个重要时刻，那将是一件非常有意义的事情，这就需要语音识别的从业者不断探索，开发出更多创造性的个人产品。

语音是人类沟通和文化传承的基础。近年来，语音识别的行业应用发展为从业者描绘了一个美好的蓝图，中国仍然需要根据语音识别技术的演进规律加大研发力度，培养人才，拓展市场，继续引领语音识别的行业应用，成为语音识别技术的全球领跑者。

本文作者：刘聪、高建清、万根顺、陈怡敏
作者单位：科大讯飞

[attach]6234[/attach]

[attach]6235[/attach]

更多版权声明：
本微信公众号所发表之文字、图片等，版权归《高科技与产业化》编辑部所有。授权合作请留言或联系hitech@mail.las.ac.cn
[attach]6236[/attach]
内容请订阅《高科技与产业化》杂志

地址：北京市海淀区中关村北四环西路33号（100190）
电话：010-82627674
传真：010-86267674
邮箱:hitech@mail.las.ac.cn
网址：[attach]6237[/attach]http://www.hitech.ac.cn
全年12期，58元/期，全年订价696元

邮发代号：82-741
刊号：ISSN1006-222X CN11-3556/N

欢迎光临智客公社 (http://bbs.cnaiplus.com/)