找回密码
 立即注册
搜索

阿里巴巴开源语音识别模型 DFSMN

雷锋网 AI 研习社消息,阿里巴巴达摩院机器智能技术实验室语音识别团队于即日推出了新一代语音识别模型——DFSMN,与此同时团队已将这一模型开源。

阿里巴巴达摩院机器智能技术实验室此前在刷新 SQuAD 成绩、KITTI 成绩上有着突出表现,也凭借在 AAAI、CVPR的论文发表,在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有突出表现。此次开源事件,也是阿里巴巴达摩院机器智能技术实验室首次凭借开发事件获得加分。

据雷锋网 AI 研习社此前了解,这一模型正是在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN(深度前馈序列记忆网络)。DFSMN 使用基于 BLSTM 的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。而官方介绍,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。

据悉,DFSMN 模型不仅被谷歌等国外巨头在论文中重点引用,更基于世界最大的免费语音识别数据库 LibriSpeech,将全球语音识别准确率纪录提高至 96.04%。

去年 12 月,上海地铁与阿里云携手推出了上海地铁语音售票机。而刚刚结束的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的「AI 收银员」在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。这两者都是针对在嘈杂真实环境中的语音识别应用。

正如阿里巴巴达摩院机器智能技术研究院的语音交互智能实验室首席科学家鄢志杰此前接受雷锋网采访时所表示的一样,「今天语音交互技术的真实水平,与用户的期待、业界的 PR 存在明显的鸿沟。」而本次阿里巴巴开源 DFSMN,也是希望能让更多的开发者群体在语音识别领域能发光发热。

GitHub开源地址:https://github.com/alibaba/Alibaba-MIT-Speech
回复

使用道具 举报

大神点评22

近夸 2018-12-1 17:55:10 显示全部楼层
几个大公司,阿里最喜欢分享,赞一个
回复

使用道具 举报

我看他幸福 2018-12-1 17:55:22 显示全部楼层
离开了模型大小,信噪比,测试内容等等诸多条件谈单纯的识别率,呵呵
回复

使用道具 举报

我下下来了,怎么使用?
回复

使用道具 举报

信大少女 2018-12-1 17:56:40 显示全部楼层
点进去发现啥都不是,是个patch
回复

使用道具 举报

纪慧琪 2018-12-1 17:57:08 显示全部楼层
利用开源技术实现富可敌国的阿里巴巴,现在将自己的产品技术开源给社会
回复

使用道具 举报

rice米生生 2018-12-1 17:57:57 显示全部楼层
有开发文档吗?
回复

使用道具 举报

忘川羽 2018-12-1 17:58:08 显示全部楼层
阿里巴巴太厉害了太厉害啦[赞][赞][赞]
回复

使用道具 举报

ztwtc4461 2018-12-1 17:58:26 显示全部楼层
哪有说明文档?
回复

使用道具 举报

Eiiejej 2018-12-1 17:58:50 显示全部楼层
收藏了,
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies