过去的 Linux 以及各种变种承担的是功能型操作系统的角色,而以 Alexa 为代表的新型系统则承担的则是智能型系统的角色。前者完成完整的硬件和资源的抽象和管理,后者则让这些硬件以及资源得到具体的应用,两者相结合才能输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是一种一对多的关系,不同的 AIoT 硬件产品在传感器(深度摄像头、雷达等)、显示器上(有屏、无屏、小屏、大屏等)具有巨大差异,这会导致功能型系统的持续分化(可以和 Linux 的分化相对应)。这反过来也就意味着一套智能型系统,必须同时解决与功能型系统的适配以及对不同后端内容以及场景进行支撑的双重责任。
从技术进展和产业发展来看,语音识别虽然还不能解决无限制场景、无限制人群的通用识别问题,但是已经能够在各个真实场景中普遍应用并且得到规模验证。更进一步的是,技术和产业之间形成了比较好的正向迭代效应,落地场景越多,得到的真实数据越多,挖掘的用户需求也更准确,这帮助了语音识别技术快速进步,也基本满足了产业需求,解决了很多实际问题,这也是语音识别相对其他 AI 技术最为明显的优势。
[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.
[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).
[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.
[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.