找回密码
 立即注册
搜索

声纹技术:让智能语音助手真正“认得”本人

9年前,苹果公司发布了当年最新的智能手机iPhone 4S,其搭载的智能语音助手 Siri一经发布,便立刻吸引了全世界范围的关注。Siri 的背后,凝聚着音频处理、语音辨认和自然言语处理等多个范畴数十年的研讨成果。

它的出现,让语音技术初次进入了普通大众的视野。




紧接着,2014年亚马逊Echo横空出世,开启了家用插电式智能音箱的全新场景,让语音技术走进了成千上万的家庭。


多种多样的智能音箱



虽然语音技术为人们提供了一种与智能设备交互的全新方式,但在人们运用该技术的过程中也诞生了一些新的成绩——无论是手机还是音箱,人们希望智能语音助手可以真正“认得”本人,能根听说话人的身份,提供个性化的回答,并决议能否提供较为隐私的用户信息。

在这样的背景下,声纹技术遭到了业界史无前例的注重。



什 么 是 声 纹

说起“指纹”,大家都不会感到生疏。凭着每个人的指纹都不一样的特性,指纹辨认技术获得了广泛的应用。

而声响,虽然不具有真正意义上的“纹理”。但每个人的发音器官,包括声带、声管等,在大小和外形上会有所差异。使得不同的人,也有着不一样的声响。

广义上讲,一切可以将一个人的声响,与其别人的声响区分开来的特征,都称之为“声纹”。而正是由于有着这样一些特征的存在,声纹才得以像指纹一样,衍生出各种适用的技术。



声纹技术中最为核心的一项便是声纹辨认技术。

和指纹辨认、人脸辨认一样,声纹辨认也是生物特征辨认技术的一种,该技术应用算法和神经网络模型,让机器可以从音频信号中辨认出不同人说话的声响。

2017年,谷歌将声纹辨认技术部署到了智能音箱Google Home上,使其可以根据不同用户的身份,提供不同的呼应方式。

例如,当用户提出“播放音乐”的央求时,智能语音助手便会先从音频信号中辨认用户的身份,然后提取对运用户的音乐偏好,并以此选取音乐停止播放。经过这种方式,当家里有多个家庭成员时,每个成员都可以经过同一个设备获得截然不同的运用体验。



除了声纹辨认之外,声纹技术也被广泛用于声纹分割聚类, 以及构建更为弱小的语音辨认、语音合成以及人声分离系统。

以语音合成为例,目前最先进的语音合成系统只需求来自特定说话人不到5秒的语音,便能克隆出该说话人的声响,并以其声响合成恣意语音内容。

谷歌公司于 2018 年发表的论文中以为,声纹克隆本质上是一种从声纹辨认义务到多说话人语音合成义务的迁移学习(transfer learning)。


可以合成恣意说话人声响的端到端语音合成模型框架



模型框架中的声纹编码器模块,将目的说话人音频转换为声纹嵌入码,而该声纹嵌入码与语音合成编码器的输入停止逐帧拼接,作为语音合成解码器的新的输入,从而使解码器可以应用到目的说话人的声纹信息。




声纹技术学习宝典

《声纹技术:从核心算法到工程实际》一书是谷歌公司声纹辨认与言语辨认团队担任人王泉教师在声纹范畴深耕多年后,为国内读者打造的一部技术宝典。




本书从20 世纪 60 年代的早期技术讲起,回顾了声纹技术数十年发展历程中最具代表性的方法,并重点引见了深度学习时代的声纹技术及其广泛运用,其中包含了大量发表于2019和2020年的前沿研讨成果。

此外,作者根据其多年的工程阅历积累,创始性地在本书中加入了专门讨论声纹技术工程部署的章节,详细阐述了声纹技术在工程部署中常会遇到的各种成绩,以及各种处理方案的优劣。为进一步结合实际,还装备了大量编程案例以及思索练习题。



▊ 本书特征

• 本书内容不只涵盖了 20 世纪 60 年代的最早期声纹辨认方法,还引见了大量 2019年和 2020 年发表的论文,紧随业界最新发展。
• 本书除了引见学术内容,还有专门的章节(第 4 章)引见工程部署,覆盖了声纹技术部署的诸多实践课题(如版本控制、分布式计算等)。这也是业内独一无二的。
• 本书装备了很多动手实际,教读者运用常用的 Python 工具包构建实例,停止实验,避免纸上谈兵。
• 本书为每一章装备了思索和练习题,因此本书也非常合适作为大学教材。



▊ 专家引荐

字节跳动运用机器学习研讨组担任人王崇以为:
“本书是这个范畴一个重要的里程碑,填补了声纹技术专著方面的空白。本书将对相关技术的进一步疾速普及和发展起到积极的推进作用,吸引更多的人才从事语音及声纹技术的研讨和开发。”

此外,邓力、何晓冬、戴琼海、梁家恩等多位范畴专家、行业大咖异样对本书极力引荐。
    邓力,加拿大工程院院士,Citadel首席人工智能官,IEEE Fellow 何晓冬,京东集团副总裁,京东人工智能研讨院常务副院长,IEEE Fellow 戴琼海,中国工程院院士,清华大学信息学院院长  梁家恩,云知声董事长

最后,援用科幻作家、雨果奖得主郝景芳对本书的评价:
“本书所引见的声纹技术前沿停顿,包括声纹克隆和人声分离等令人印象深入的运用,让我不由对其将来展开有限的遐想。置信不久之后,能与人们自然地对话,并经过声响来分辨我们每一个人的人工智能将成为理想。更令我等待的是,在人类步入宇宙时代并可以与地外文明停止交流的将来,声纹技术又会在其中发挥怎样的作用。”

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

硕士水 2020-9-18 14:56:49 来自手机 显示全部楼层
顶起顶起顶起
回复

使用道具 举报

公子纸鸢 2020-9-19 13:29:16 显示全部楼层
顶一个,顶一个,顶一个
回复

使用道具 举报

晓乱世江湖 2020-9-20 11:50:13 显示全部楼层
对不起,我就来看看,不说话
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies