智客公社

标题: 语音识别应用场景(3):声纹识别打造个性化语音指纹 [打印本页]

作者: 狼の呐喊 时间: 2018-7-28 12:31
标题: 语音识别应用场景(3):声纹识别打造个性化语音指纹

点击上方蓝色字体，关注：九三智能控

先来一段感觉不错的概念宣传片（非广告宣传，纯学习研究）

声纹识别最早是在40年代末由贝尔实验室开发，主要用于军事情报领域，随着该项技术的逐步发展，60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术，从1967年到现在，美国至少5000多个案件包括谋杀、强奸、敲诈勒索、走私毒品、赌博，政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。特别强调的是，声纹鉴别目前已经是公安部的标准，是可以作为证据进行鉴定的。

相较于声纹识别，大众可能对语音识别更为熟悉，但二者有本质的区别。语音识别是“说什么”，声纹识别是“谁在说”。而语音识别必然会从“说什么”发展到“谁在说”。而传统智能语音技术的瓶颈在于它不能区分说话人身份，也就无法提供相应的个性化服务，实现真正意义的交互。语音场景下要解决身份识别的问题，需要基于声纹生物信息ID的声纹识别技术支持。

声纹识别的生物学基础

[attach]6312[/attach]

声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。这种独特的特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。每个人的发声腔都是不同的，就像指纹一样，每个人的声音也就有独特的特征。
第二个决定声音特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。
因此，理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。

声纹识别的技术分类

声纹识别在技术方面有分为两类：即说话人确认技术和说话人辨认技术，说话人确认技术是用于判断未知说话人是否为某个指定人；后者则是用于辨认未知说话人是已记录说话人中的哪一位。
用工程语言来说，目前声纹识别共有“1:1识别”和“1：N识别”两种。以最具代表性的微信语音锁为例，其所实现的就是 1:1 的识别，即确认“你是你”；又比如行业知名企业 SpeakIn 在实现 1:1 的技术之外，还实现了更复杂的 1：N 的识别，也就是在确认“你是谁”，在大量的动态数据中准确锁定用户，从而服务于更广阔的使用场景。1:1 是“我知道跟谁比”，而 1：N 是不知道在跟谁比的，N 的数量级越大，搜索的复杂度就越高，对技术的要求也就越高。

声纹识别的基本技术原理

[attach]6313[/attach]

声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法，VQ聚类法等。这些方法虽然处理手段不同，但基本原理是类似的，都是基于上一周提到的声谱图《》，声谱图是声音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的声音的基频及谐频在声谱图上表现为一条一条的亮线，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。
目前公安部声纹鉴别就采用类似方法，而且语谱图还是用的灰度来表示。主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征，然后再与模式识别等传统匹配方法结合进行声纹识别。

声纹识别的优势

[attach]6314[/attach]

首先，语言是人类沟通最自然的工具，且具有指令性。语音作为最天然入口，在万物互联的时代无疑是爆点之一。同时，相较于其他生物识别技术，声纹语料收集的方式也更为自然，不需要特定说话或摆动作，我们平时自然交谈的内容都可以作为数据录入。
另一点是“内容变化”特点。在身份识别过程中，与固定的指纹和只能做简单动作的人脸相比，语音具有内容变化，可以随机改变朗读内容，所以即便在网上或其他地方留下的声音信息，也难以被复制和盗用，因此声纹识别的防攻击性更高，更加安全。
第三点就是使用成本低。人脸识别需要摄像头，而声纹识别只需要麦克风，这两者相比，后者的造价和安装成本都更低，对于商务来说更容易使用，也就更方便推广和使用。
此外，物联网正在蓬勃发展，对于没有屏幕和键盘或是屏幕非常小的硬件，语音是目前最合理的操作入口，因此声纹识别也是最适合大范围在物联网场景下使用的验证方式和服务入口。

声纹识别的应用场景

（1）信息领域。比如在自动总机系统中，把身份证之声纹辨认和关键词检出器结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证，后者用于内容认证。同样，声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。
（2）银行、证券。鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒)，甚至可以把交易时的声音录下来以备查询。
（3）公安司法。对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认（同一性鉴定）的旁证。在监狱亲情电话应用中，通过采集犯人家属的声纹信息，可有效鉴别家属身份的合法性。在司法社区矫正应用中，通过识别定位手机位置和呼叫对象说话声音的个人特征，系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所，有效地解决人机分离问题。
（4）军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪(战场环境监听)；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。
（5）保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。

【参考文章】

1、http://baijiahao.baidu.com/s?id=1578583738100712685&wfr=spider&for=pc
2、https://www.leiphone.com/news/201611/ISBPJpacXH5bI7hE.html
3、https://baike.baidu.com/item/%E5%A3%B0%E7%BA%B9%E8%AF%86%E5%88%AB/2101887?fr=aladdin

微信群&交流合作

加入微信群：不定期分享资料，拓展行业人脉请在公众号留言：“微信号+名字+研究领域/专业/学校/公司”，我们将很快与您联系。
投稿、交流合作请留言联系。

[attach]6315[/attach]

欢迎光临智客公社 (http://bbs.cnaiplus.com/)