金融界2024年12月10日消息,国家知识产权局信息显示,苏州保泰信息科技有限公司申请一项名为“一种基于深度学习的VAD方法在语音识别系统中的应用”的专利,公开号CN 119091932 A,申请日期为2024年8月。
专利摘要显示,本申请涉及语音识别技术领域,公开了一种应用于VAD模块的语音识别方法,包括以帧为单位获取音频流数据,并将音频流数据升采样或者降采样成需要的格式;通过多头注意力模型对每帧音频流数据进行特征提取,得到每帧音频流数据的特征数据;设置滑动窗口记录多帧音频流数据的特征数据;对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断,并剔除被判断为其他状态的音频流数据;本申请有效提升语音转文字的准确率,减少计算资源消耗,提高语音转文字的转换效率。
本文源自金融界 |