智客公社

标题: Siri 语音辨认的小心机：你在哪里，就能更准确地辨认那附近的地址 [打印本页]

作者: 张凯慧眼识君子 时间: 2019-9-16 12:34
标题: Siri 语音辨认的小心机：你在哪里，就能更准确地辨认那附近的地址

[attach]211119[/attach]

雷锋网 AI 科技回复按：这篇文章来自苹果机器学习日记（Apple Machine Learning Journal）。与其他科技巨头人工智能实验室博客的论文解读、技术成果分享不同，苹果的机器学习日记虽然也是引见他们对机器学习相关技术的心得体会，但侧重点在于技术产品的完成过程、技术资源用户体验之间的取舍，更像是「产品经理的 AI app 研发日记」。过往内容可以参见如何设计能在Apple Watch上实时运转的中文手写辨认系统，，为了让iPhone实时运转人脸检测算法，苹果原来做了这么多努力。

在最新一期中，苹果引见了如何让 Siri 根据用户所在地的不同，准确辨认出用户提到的周围的地点。雷锋网 AI 科技回复编译如下。

[attach]211120[/attach]

近年来，由于深度学习技术的广泛运用，自动语音辨认（ASR）系统的准确率有了分明的提高。但是，人们目前次要是在通用语音的辨认方面获得了功能的提升，但准确地辨认有详细名字的实体（例如，小型本地商户）照旧是一个功能瓶颈。

本文描画了我们是如何应对这一应战的，经过将用户地理地位信息融入语音辨认系统提升 Siri 辨认本地 POI 信息点（point of interest，兴味点）称号的才能。可以将用户的地位信息思索在内的自定义言语模型被称为基于地理地位的言语模型（Geo-LMs）。这些模型不只可以应用声学模型和通用言语模型（例如标准的语音辨认系统）提供的信息，还可以运用用户周围的环境中的POI信息点的信息，更好地估计用户想要的单词序列。

引言

普通来说，虚拟助理都可以正确地辨认和了解像星巴克这样的知名企业和连锁商店的名字，但是很难辨认出用户查询的数以百万计的小型本地 POI （兴味点）的名字。在自动语音辨认系统中，人们公认的一个功能瓶颈是：准确有详细名字的的实体（例如，小型本地商户），而这正是频率分布的长尾（大批、多种类的需求）。

我们决议经过将用户地理地位信息交融到语音辨认系统中来提高 Siri 辨认本地 POI 的称号的才能。

自动语音辨认系统同城由两个次要部分组成：

我们可以找出形成这种困难（准确辨认具名实体）的两个要素：

实体称号能够只在言语模型的训练数据中出现一次，或者根本没有出现。想象你生活中各种各样的公司的称号，你就能了解为什么说这是一个宏大的应战了。

第二个要素导致了构成本地企业称号的单词序列会被通用言语模型分配到一个非常低的先验概率，从而使得一个公司的称号不太能够被语音辨认器正确地选到。（比如雷锋网楼下的「时令果町」，日常的中文运用中是不会出现这样的组合的）

我们在本文中提出的方法架设用户更倾向于用移动设备搜索附近的本地 POI，而不是运用 Mac，因此我们在这里运用移动设备的地理地位信息来提高 POI 的辨认功能。这有助于我们更好地估计用户想要的单词序列。经过将用户的地理地位信息交融到Siri的自动语音辨认系统中，我们曾经可以分明地提高本地 POI 辨认和了解的准确率。

Siri 如何运用基于地理地位的言语模型（Geo-LMs）？

我们定义了一组覆盖美国大部分地区的地理区域（Geo regions），并且为每个区域构建了一个基于地理地位的言语模型（Geo-LMs）。当用户提出查询央求时，他们会得到一个根据用户目前的地位信息定制的系统，这个系统带有一个基于地理地位的言语模型。假如用户在任何定义的地理区域之外，或者假如 Siri 无法访问定位服务，系统就会运用一个默许的全局 Geo-LM。接着，被选取的 Geo-LM 会与声学模型结合起来对自动语音辨认系统停止解码。图1 显示了系统全体的工作流程。

[attach]211121[/attach]

图1.系统概览

地理区域

我们根据美国人口普查局的综合统计区域(CSAs)[1]来定义地理区域。从通勤形式来看，CSA 包含了经济上和社会上相连的临近大都郊区域。169 个 CSA 覆盖了美国 80% 的人口。我们为每个 CSA 建立一个公用的 Geo-LM，其中包含一个全局 Geo-LM，覆盖一切 CSA 未定义的区域。

为了高效地搜索用户所处的 CSA，我们存储了一个来自美国人口普查局[2]提供的栅格化地图边界(或外形文件)的纬度和经度查找表。在运转时，查找地理地位的计算复杂度为O(1)。

算法

Siri 的自动语音辨认系统运用了一种基于加权有限形状机（WFST）的解码器，该解码器由 Paulik 初次提出[3]。该解码器采用差分言语模型原理，这与[4，5]中描画的框架相相似。

我们完成了一种类言语模型，在这个模型中，我们用类内语法动态地交换类非终结符。图2 对这个概念停止了阐明。我们运用了一个主言语模型，将其用于通用辨认，并且为预定义的类别引入了终结符标签，例如地理区域。对于每一个类，Slot 言语模型都是由与类相关的实体称号构建的，并且用于表示类内语法。接着，运用主言语模型和 slot 言语模型构建基于地理地位的言语模型，其完成过程如下节所述。

[attach]211122[/attach]

图2 类言语模型的通用框架

构建基于地理地位的言语模型

直接构建基于地理地位的言语模型（Geo-LM）的方法是为每个地理区域构建一个言语模型，每一个模型都是经过插入通用言语模型和从带有地理信息的训练文本中训练出的特定地理地位的言语模型得到的。这样做的成绩是，通用言语模型通常都很大，由于它覆盖了很多的范畴。生成的基于地理地位的言语模型积累出的模型大小往往太大，无法在运转时直接装载到内存中。另一方面，POI称号可以构建紧凑的言语模型，它的大小能够是一个残缺的通用言语模型的千分之一到非常之一；基于以上分析，我们提出了类言语模型框架。

在我们的类言语模型框架中，主言语模型如其它的类言语模型一样被训练，训练运用的文本来自于一切模型支持的范畴。为了提升对非终结符标签的支持，最后我们依赖于运用经过基于特定地理地位的模版以为创建的训练文本，例如「指向\\CS-POI」，其中「\\CS-POI」为类标签。这样的天然文天分够协助引导模型初始化对非终结符的辨认。在部署好基于地理地位的言语模型后，我们的自动语音辨认系统的输入将具有特殊的标记，例如：在经过类言语模型框架辨认的地理实体周围会有「\\CS-POI」标记。新的基于地理地位的言语模型的输入将使我们可以不断为主言语模型中的非终结符提供训练文本。

在基于地理地位的言语模型中，Slot 言语模型是用特定类的实体（POI）训练的。在我们提出的系统中，为每个地理区域都构建了一个slot言语模型。每个slot言语模型的训练文本由相应区域的本地POI的称号组成。

图3 展现了一个基于加权有限自动机的类言语模型的小例子，其中包含了一个代表三个带有先验概率的简单模板的主言语模型（某条记录相对于其它的选项出现的概率）：

先验概率=0.5: 指向\\CS-POI

先验概率=0.3: 地点正好为\\CS-POI

先验概率=0.2：寻觅最近的\\CS-POI

该模型也囊孔了一个slot言语模型，它仅仅包含三个带有先验概率的POI：

先验概率=0.4: 哈佛大学

先验概率=0.4: TD 花园

先验概率=0.2：Vidodivino

[attach]211123[/attach]

图3. 基于加权有限自动机的类言语模型的简单示例

将 POI 作为一个统计 n-gram 言语模型停止训练让我们可以对 POI 称号的动态变化停止建模。例如，只需「哈佛大学」一词存在于训练文本中，「哈佛」和「哈佛大学」都可以在 slot 言语模型中被建模。我们根据在产生的流量中观察到的分布获取先验概率。

在运转中，我们必须基于如图3 所示的当前用户的地位，动态、有效地将主言语模型中的类非终结符交换为各自相应的 slot 言语模型，其中「\\CS-POI」代表基于地理地位的言语模型中的非终结符。

为了确保解码词典可以涵盖一切POI的名字，当某个 POI 的名字在我们的解码词典中无法找到时，我们会运用一个外部的「字符到音素（G2P）」系统自动推导出发音。

这样的框架使我们可以对整个系统停止灵敏的更新。当你想要更新 POI 或增添新的地理区域时，你只需求重构或添加更多的 slot 言语模型。由于 slot 言语模型的规模很小，其重构过程使很快、效率很高。虽然一个典型的通用言语模型的大小可以达到 200MB 或者更大，而一个 slot 言语模型的大小仅为 0.2MB 到 20MB，详细大小取决于包含的实体数量。Slot 言语模型的灵敏性对于我们的运用程序的可持续性至关重要。这是 POI 称号的迅速变化形成的，这种变化能够是由于该地点的新公司倒闭或者旧公司关闭以及这里不断变化的人口。除此之外，由于 slot 言语模型比较小，我们提出的框架允许在服务器初始化时将一切的言语模型预加载到系统内存中。因此，开关 slot 言语模型的过程可以在内存中完成，这使得我们可以得到一个非常高效的完成。我们的测试结果阐明，主言语模型和 slot 言语模型的动态组合智慧惹起边际延迟的添加。

实验和结果

在本节中，我们展现了对提出的基于地理地位的言语模型的对比基准测试，与将通用模型用于美国 POI 辨认的义务停止了对比。在一切的实验中，我们运用了一种混合的卷积神经网络CNN-HMM（隐马尔可夫卷积神经网络）[6]。自动机是应用 5,000 个小时的英语语音数据经过过滤器组特征训练得到的。详细而言，我们的基于地理地位的言语模型是作为一个4元模型训练得来的。我们手动改写了测试数据，并对地理地位停止了标注，一边在测试时期可以运用正确的 slot 言语模型。接上去，我们将首先描画我们用来训练和测试 Geo-LM 的数据，然后展理想验结果。

数据

用来训练通用言语模型对比基线的训练文本（D1）包含从各种数据源搜集到的、保密、实时运用的数据。

用来在我们提出的基于地理地位的言语模型（Geo-LM）中构建主言语模型的训练数据由D1和人为创建的用例模版组成，其中包含「构建基于地理地位的言语模型」这一节中提到的POI类标志。

为了构建 slot 言语模型，我们从每天更新的苹果地图搜索日志中提取出被搜索的POI称号。提取出的POI被根据其地点和人口分成 170 组，从而为 169 个 CSA 和一个对应于没有被 CSA 涵盖的央求的全局组构建 slot 言语模型。每个 POI 的先验概率是根据它们在搜索日志中的运用频率设置的。表 1 显示了通用言语模型和 Geo-LM 的两个组成部分的 n-gram 的大小比较。Slot 在 170 个地理区域中，平均比通用模型的规模小的多。

表1.通用言语模型和Geo-LM中n-gram的数量

[attach]211124[/attach]

在我们的实验中，我们运用了两类测试数据：

我们运用的是从 Siri 在美国的消费流量中随机选取出的真实世界中的用户数据，我们根据它创建了两个测试集：

一套外部记录的本地POI搜索测试集（T3）。我们挑选出了八个美国次要的大都会区，并根据 Yelp 上的回复选出了 1,000 个最抢手的 POI。对于每一个 POI，我们将记录来自于三个不同说话者的三条语音，并且分别为这三条语音加上或删掉领语「direction to」。请留意，我们从列表中删除了 6,500 个大型 POI，由于它们大多数都可以在不运用 Geo-LM 的状况下被辨认出来，并且其辨认次要是根据热度停止的。

实验结果

我们首先在理想世界用户测试集 T1 和 T2 上停止了实验。表 3 总结的结果表明，Geo-LM 可以在不降低在 T2 上的准确率的状况下，在 T1 上降低 18.7% 的字错误率。

由于 T1 是从消费环境的流量中随机抽样得到的，它包含了相沃尔玛和家得宝这样的大型 POI，而通用言语模型曾经可以辨认出它们。为了在愈加难以找到的本地 POI 上测试称号辨认系统的功能，我们在 T3 上停止了测试，其中并不包括大型 POI。如表 4 所示，实验结果表明，通用言语模型在 T3 数据集上表现并不好，而我们提出的基于地理地位的言语模型在八个地理区域中普遍可以将字错误率降低40%以上。

我们还比较了两个系统的运转速度，并且观察到 Geo-LM 的平均延迟稍微添加了不到10毫秒。

表3在真实世界用户测试集（T1和T2）上通用言语模型和 Geo-LM 得到的字错误率对比

[attach]211125[/attach]

表4.在美国的八个次要的大都会区的最抢手的 POI 测试集（T3）上通用言语模型和 Geo-LM 得到的字错误率对比

[attach]211126[/attach]

结语

在这项工作中，我们展现了一个非常有效的基于地理地位的言语模型（Geo-LM），它有几下几个优势：

我们的实验表明，运用本地化的信息可以使当地 POI 搜索的字错误率降低18%以上。在不包含大型 POI 使，字错误率会降低 40% 以上。

由于对系统运转速度的影响很小，对于其它区域的覆盖还有很大的提升空间。但是，除了区域性的言语模型，还需求继续提供一个全球化的 Geo-LM，从而使自动语音辨认系统可以处理远间隔查询，并且可以应对用户在支持的区域之外的状况。

本文提出的方法和系统与详细运用的言语是有关的。因此，除了美国和英语区，Geo-LM 也支持直接对其它的地区停止扩展。

想要了解更多的细节，以及对我们在本文中提出的 Geo-LM 停止的广泛的功能评价，可以参阅我们在 ICASSP2018上发表的论文「Geographic Language Models for Automatic Speech Recognition」[7]。

参考文献

[1] U.S. Census Bureau, “Combined Statistical Areas of the United States and Puerto Rico,” 2015.

[2] U.S. Census Bureau, “Cartographic Boundary Shapefiles,” 2015.

[3] M. Paulik, “Improvements to the Pruning Behavior of DNN Acoustic Models,” Interspeech, 2015.

[4] H. Dolfing and I. Hetherington, “Incremental Language Models for Speech Recognition Using Finite-state Transducers,” Proceedings of ASRU, 2001, pp. 194–197.

[5] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, et al., “The Kaldi Speech Recognition Toolkit,” Proceedings of ASRU, 2011, pp. 1–4.

[6] O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn, and D. Yu, “Convolutional Neural Networks for Speech Recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 10, pp. 1533-1545, 2014.

[7] X. Xiao, H. Chen, M. Zylak, D. Sosa, S. Desu, M. Krishnamoorthy, D. Liu, M. Paulik, and Y. Zhang, “Geographic Language Models for Automatic Speech Recognition,” in Proceedings of ICASSP, 2018.

via Apple Machine Learning Journal，雷锋网 AI 科技回复编译

作者: 喜喜1234 时间: 2019-9-16 20:03
元芳你怎么看？

作者: @Xizi_feukGQ3y 时间: 2019-9-17 22:22
一直在看

作者: 眩雪莹子 时间: 2019-9-18 19:04
我也顶起出售广告位

欢迎光临智客公社 (http://bbs.cnaiplus.com/)