本文描画了我们是如何应对这一应战的,经过将用户地理地位信息融入语音辨认系统提升 Siri 辨认本地 POI 信息点(point of interest,兴味点)称号的才能。可以将用户的地位信息思索在内的自定义言语模型被称为基于地理地位的言语模型(Geo-LMs)。这些模型不只可以应用声学模型和通用言语模型(例如标准的语音辨认系统)提供的信息,还可以运用用户周围的环境中的POI信息点的信息,更好地估计用户想要的单词序列。
引言
普通来说,虚拟助理都可以正确地辨认和了解像星巴克这样的知名企业和连锁商店的名字,但是很难辨认出用户查询的数以百万计的小型本地 POI (兴味点)的名字。在自动语音辨认系统中,人们公认的一个功能瓶颈是:准确有详细名字的的实体(例如,小型本地商户),而这正是频率分布的长尾(大批、多种类的需求)。
我们决议经过将用户地理地位信息交融到语音辨认系统中来提高 Siri 辨认本地 POI 的称号的才能。
我们在本文中提出的方法架设用户更倾向于用移动设备搜索附近的本地 POI,而不是运用 Mac,因此我们在这里运用移动设备的地理地位信息来提高 POI 的辨认功能。这有助于我们更好地估计用户想要的单词序列。经过将用户的地理地位信息交融到Siri的自动语音辨认系统中,我们曾经可以分明地提高本地 POI 辨认和了解的准确率。
Siri 如何运用基于地理地位的言语模型(Geo-LMs)?
我们定义了一组覆盖美国大部分地区的地理区域(Geo regions),并且为每个区域构建了一个基于地理地位的言语模型(Geo-LMs)。当用户提出查询央求时,他们会得到一个根据用户目前的地位信息定制的系统,这个系统带有一个基于地理地位的言语模型。假如用户在任何定义的地理区域之外,或者假如 Siri 无法访问定位服务,系统就会运用一个默许的全局 Geo-LM。接着,被选取的 Geo-LM 会与声学模型结合起来对自动语音辨认系统停止解码。图1 显示了系统全体的工作流程。
由于 T1 是从消费环境的流量中随机抽样得到的,它包含了相沃尔玛和家得宝这样的大型 POI,而通用言语模型曾经可以辨认出它们。为了在愈加难以找到的本地 POI 上测试称号辨认系统的功能,我们在 T3 上停止了测试,其中并不包括大型 POI。如表 4 所示,实验结果表明,通用言语模型在 T3 数据集上表现并不好,而我们提出的基于地理地位的言语模型在八个地理区域中普遍可以将字错误率降低40%以上。
我们还比较了两个系统的运转速度,并且观察到 Geo-LM 的平均延迟稍微添加了不到10毫秒。
表3在真实世界用户测试集(T1和T2)上通用言语模型和 Geo-LM 得到的字错误率对比
[attach]211125[/attach]
表4.在美国的八个次要的大都会区的最抢手的 POI 测试集(T3)上通用言语模型和 Geo-LM 得到的字错误率对比
[attach]211126[/attach]
结语
在这项工作中,我们展现了一个非常有效的基于地理地位的言语模型(Geo-LM),它有几下几个优势:
训练过程很灵敏
运转时高效的言语模型构造
在本地 POI 辨认义务重,自动语音辨认系统的准确率相较于通用言语模型有很大的提高
我们的实验表明,运用本地化的信息可以使当地 POI 搜索的字错误率降低18%以上。在不包含大型 POI 使,字错误率会降低 40% 以上。
想要了解更多的细节,以及对我们在本文中提出的 Geo-LM 停止的广泛的功能评价,可以参阅我们在 ICASSP2018上发表的论文「Geographic Language Models for Automatic Speech Recognition」[7]。
参考文献
[1] U.S. Census Bureau, “Combined Statistical Areas of the United States and Puerto Rico,” 2015.
[2] U.S. Census Bureau, “Cartographic Boundary Shapefiles,” 2015.
[3] M. Paulik, “Improvements to the Pruning Behavior of DNN Acoustic Models,” Interspeech, 2015.
[4] H. Dolfing and I. Hetherington, “Incremental Language Models for Speech Recognition Using Finite-state Transducers,” Proceedings of ASRU, 2001, pp. 194–197.
[5] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, et al., “The Kaldi Speech Recognition Toolkit,” Proceedings of ASRU, 2011, pp. 1–4.
[6] O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn, and D. Yu, “Convolutional Neural Networks for Speech Recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 10, pp. 1533-1545, 2014.
[7] X. Xiao, H. Chen, M. Zylak, D. Sosa, S. Desu, M. Krishnamoorthy, D. Liu, M. Paulik, and Y. Zhang, “Geographic Language Models for Automatic Speech Recognition,” in Proceedings of ICASSP, 2018.
via Apple Machine Learning Journal,雷锋网 AI 科技回复编译作者: 喜喜1234 时间: 2019-9-16 20:03
元芳你怎么看?作者: @Xizi_feukGQ3y 时间: 2019-9-17 22:22
一直在看作者: 眩雪莹子 时间: 2019-9-18 19:04
我也顶起出售广告位