AI技术的发展推动了相关音频算法的不断涌现。这些 AI 算法虽然能够在某些特定问题或实验室数据上获得优异表现,但往往存在高成本、无法适应真实应用场景、难以处理高维度声音环境等工程化问题。这些问题往往导致音频AI算法在真实场景中的落地困难。
作为对AI算法落地难问题的响应,网易云信团队的解决方案是将AI 与 DSP 进行结合、提升 AI 算法在复杂场景的泛化能力、端侧落地的低开销与稳定性,以及研发实时音视频环境中的AI算法。
大部分 AI 算法在音频通话场景和针对目标声音的训练、验证集上会有很好的效果,但在未见过的测试集上效果会有所回退。为了提升算法在常见环境中的泛化能力,云信团队选择了从实时音视频通信(RTC)领域的数据集入手。在 AI 音频通话算法的研发过程中,云信团队针对场景、采集设备,自行做了大量的数据采集和标注。通过开源数据、采购数据,对噪音进行实际录制,沉淀了一个多场景噪声集。
低开销端侧落地与稳定性提升
针对端侧性能提升,云信团队主要通过算法模型剪枝、推理加速、推理指令集优化等操作实现。
实时音视频环境中的AI算法
针对 RTC 场景,网易云信成功研发了轻量级、适合全平台终端的 AI 音频降噪算法。作为国内行业中的首个 AI 音乐训练检测模型,网易云信结合了自研的帧间频域特征和一个轻量级神经网络,训练出了一个音乐检测率高、鲁棒性强、计算开销小,适合在各个端侧落地的 AI 模型。
2021年,云信团队的两篇论文被第 50 届国际噪声控制工程会议INTER-NOISE收录。
「A neural network based noise suppression method for transient noise control with low-complexity computation」提出使用 AI 抑制键盘、敲门声等。该算法使用了优化的谐波相关性(Modified Harmonic-Correlation),和独创的损失函数,在一个 RNN 模型上进行训练。在终端运行时,算法结合了网易云信自研的 NENN 推理框架,在大幅提升降噪效果的同时,保持了一个极低的运算复杂度。
「A real-time music detection method based on convolutional neural network using Mel-spectrogram and spectral flux」提出了一项音乐检测器,利用 CNN网络对不同场景中的音乐声音进行检测和减损。作为国内行业中的首个 AI 音乐训练检测模型,网易云信结合了自研的帧间频域特征和一个轻量级神经网络,训练出了一个音乐检测率高、鲁棒性强、计算开销小,适合在各个端侧落地的 AI 模型。通过对环境声音的检测,模型能够区分出音乐和非音乐场景,并基于此先验信息,对 RTC 中音频 APM 处理进行有针对性地调整,在保证语音信号质量的同时,大幅提高音乐信号的质量。
2022年,云信团队的麦克风啸叫检测方法被 ICASSP 2022 收录,在该工作中云信团队采取了一种基于卷积递归神经网络的方法,用于 RTC 应用中的啸叫检测,实现了出色的准确性和低误报率。