金融界2025年1月16日消息,国家知识产权局信息显示,苏州朗捷通智能科技有限公司申请一项名为“一种基于注意力机制的音视频双模态语音识别方法”的专利,公开号 CN 119296525 A,申请日期为2024年9月。
专利摘要显示,本发明公开了一种基于注意力机制的音视频双模态语音识别方法,包括以下步骤:S1、获取音视频数据;S2、提取视频特征;S3、音频特征提取;S4、将音频特征与视频特征编码后输入一个多模态注意力层进行融合,通过注意力机制实现音频特征、视频特征的对齐修正;S5、解码得到音频识别文本数据;S6、解码得到视频识别文本数据;S7、基于多头注意力机制获取音频识别文本数据和视频识别文本数据之间的深层语义关系,基于语义信息融合音频识别文本数据和视频识别文本数据;S8、输出得到语音识别结果。本发明相较于现有技术,解决语音识别过程中容易出现音视频信息处理混乱、识别匹配度低、准确性不高的问题。
天眼查资料显示,苏州朗捷通智能科技有限公司,成立于2008年,位于苏州市,是一家以从事建筑安装业为主的企业。企业注册资本11500万人民币,实缴资本10000万人民币。通过天眼查大数据分析,苏州朗捷通智能科技有限公司共对外投资了5家企业,参与招投标项目739次,知识产权方面有商标信息6条,专利信息314条,此外企业还拥有行政许可6个。
本文源自金融界 |