智客公社

标题: 阿里巴巴开源语音识别模型 DFSMN [打印本页]

作者: 呆味丝袜广告部 时间: 2018-12-1 17:54
标题: 阿里巴巴开源语音识别模型 DFSMN
雷锋网 AI 研习社消息，阿里巴巴达摩院机器智能技术实验室语音识别团队于即日推出了新一代语音识别模型——DFSMN，与此同时团队已将这一模型开源。

阿里巴巴达摩院机器智能技术实验室此前在刷新 SQuAD 成绩、KITTI 成绩上有着突出表现，也凭借在 AAAI、CVPR的论文发表，在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有突出表现。此次开源事件，也是阿里巴巴达摩院机器智能技术实验室首次凭借开发事件获得加分。

据雷锋网 AI 研习社此前了解，这一模型正是在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN（深度前馈序列记忆网络）。DFSMN 使用基于 BLSTM 的统计参数语音合成系统作为基线系统，采用广泛使用的跳跃连接技术，在执行反向传播算法时，梯度可以绕过非线性变换。而官方介绍，对比目前业界使用最为广泛的 LSTM 模型，训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备，相比前代技术深度学习训练速度提到了 3 倍，语音识别速度提高了 2 倍。

据悉，DFSMN 模型不仅被谷歌等国外巨头在论文中重点引用，更基于世界最大的免费语音识别数据库 LibriSpeech，将全球语音识别准确率纪录提高至 96.04%。

去年 12 月，上海地铁与阿里云携手推出了上海地铁语音售票机。而刚刚结束的云栖大会武汉峰会上，装有 DFSMN 语音识别模型的「AI 收银员」在与真人店员的 PK 中，在嘈杂环境下准确识别了用户的语音点单，在短短 49 秒内点了 34 杯咖啡。这两者都是针对在嘈杂真实环境中的语音识别应用。

正如阿里巴巴达摩院机器智能技术研究院的语音交互智能实验室首席科学家鄢志杰此前接受雷锋网采访时所表示的一样，「今天语音交互技术的真实水平，与用户的期待、业界的 PR 存在明显的鸿沟。」而本次阿里巴巴开源 DFSMN，也是希望能让更多的开发者群体在语音识别领域能发光发热。

GitHub开源地址：https://github.com/alibaba/Alibaba-MIT-Speech

作者: 近夸 时间: 2018-12-1 17:55
几个大公司，阿里最喜欢分享，赞一个

作者: 我看他幸福 时间: 2018-12-1 17:55
离开了模型大小，信噪比，测试内容等等诸多条件谈单纯的识别率，呵呵

作者: 黑蝙蝠中队队长 时间: 2018-12-1 17:55
我下下来了，怎么使用？

作者: 信大少女 时间: 2018-12-1 17:56
点进去发现啥都不是，是个patch

作者: 纪慧琪 时间: 2018-12-1 17:57
利用开源技术实现富可敌国的阿里巴巴，现在将自己的产品技术开源给社会

作者: rice米生生 时间: 2018-12-1 17:57
有开发文档吗？

作者: 忘川羽 时间: 2018-12-1 17:58
阿里巴巴太厉害了太厉害啦[赞][赞][赞]

作者: ztwtc4461 时间: 2018-12-1 17:58
哪有说明文档？

作者: Eiiejej 时间: 2018-12-1 17:58
收藏了，

作者: aitp6080 时间: 2018-12-1 17:59
转发

作者: rtrtaa 时间: 2018-12-1 18:00
好！

作者: zhouguiy 时间: 2018-12-1 18:00
赞

作者: 海角蝶恋花 时间: 2018-12-1 18:00
直接把训练结果放出来吧，别藏了，直接垄断。

作者: Ca07ki1 时间: 2018-12-1 18:01
开元个屁，源码没有算开源？

作者: 金色d记忆 时间: 2018-12-1 18:01
讲个笑话，阿里巴巴的开源项目

作者: 日出印象 时间: 2018-12-1 18:02
转发了

作者: 双子座的xy 时间: 2018-12-1 18:03
转发了

作者: starcxl110 时间: 2018-12-1 18:03
转发了

作者: wingsun30 时间: 2018-12-1 18:03
转发了

作者: 明明只爱一生 时间: 2018-12-1 18:04
转发了

作者: Chen298 时间: 2018-12-2 18:45
顶起顶起顶起

作者: 风信子282 时间: 2018-12-4 08:36
愣着干嘛，鼓掌啊

欢迎光临智客公社 (http://bbs.cnaiplus.com/)